推荐 序 : 飞跃 的 第 2 版 


MySQL 作 为 一 个 开源 项 目 ， 已 经 有 20 年 历史 了 ， 最 近 几 年 在 互联 网 核心 系统 中 的 成 功 使 用 奠定 了 其 在 关系 数据 库 中 的 地 位 ， 也 成 为 让 每 一 个 DBA、 开 发 人 员 、 架 构 师 及 CTO 都 不 得 不 考虑 的 数据 库 基础 
软件 。 


对 于 数据 库 爱 好 者 来 讲 ，Oracle 是 非常 值得 研究 的 数据 库 ， 因 为 其 历史 悠久 、 功 能 卓越 ; 而 MySQL 则 是 非常 适合 研究 的 ， 因 为 它 的 代码 、 协 议 及 外 围 配套 工具 具有 开放 性 。 国 内 有 一 大 批 在 各 个 企业 成 
功 实施 过 MySQL 的 优秀 工程 师 ， 在 完成 工作 之 余 ， 他 们 还 积累 了 丰富 的 知识 和 经 验 ， 并 提炼 总 结 著 成 书籍 ， 以 帮助 其 他 人 ， 本 书 作者 就 是 其 中 之 一 。 


本 书 的 第 1 版 帮助 了 不 少 人 入 门 MySQL， 我 在 学 习 MySQL 的 过 程 中 也 参阅 过 第 1 版 ， 以 便 了 解 不 同 企业 使 用 MySQL 的 业务 场景 和 遇 到 的 技术 难题 ， 以 及 最 后 所 用 的 解决 方案 。 用 心 的 读者 是 用 心 的 作者 
最 大 的 动力 和 回报 。 


最 近 三 四 年 里 ，MySQL 发 展 极 快 ， 包 括 官方 的 MySQL 版 本 以 及 MariaDB 分 支 的 发 展 ， 更 重要 的 是 在 企业 的 各 类 系统 中 它 的 应 用 也 越 来 越 广泛 和 深入 。 随 着 它 的 发 展 ， 架 构 师 及 运 维 主 管 的 工作 也 更 具 
有 挑战 性 ， 此 时 ， 作 者 用 心 编写 第 2 版 ， 不 只 是 简单 的 完善 和 改版 ， 还 可 以 理解 为 重 写 和 飞跃 。 


现在 ,数据 库 管理 员 已 经 变 成 了 数据 管理 员 ， 反 映 的 是 理念 和 架构 的 变化 ， 第 2 版 中 新 增 的 内 容 更 多 地 印证 了 这 一 点 ， 这 一 版 对 高 可 用 、 自 动 切换 、 数 据 保护 等 方案 的 透析 更 加 深入 ,数据库 中 间 件 部 分 
的 深入 分 析 更 能 拓展 广大 DBA 的 视野 。 


如 果 将 一 本 书 比 作 一 个 人 ， 那 么 第 1 版 聚焦 于 DBA 工 作 ， 而 第 2 版 则 聚焦 于 架构 师 的 思考 ， 并 且 还 可 以 随时 随地 联系 作者 进行 深入 交流 ， 不 再 只 是 局 限于 本 书 中 的 内 容 ! 


平民 软件 (http://www.onexsoft.com) 楼 方针 


为 什么 要 写 这 本 书 
首先 要 感谢 读者 对 第 1 版 的 认可 。 随 着 技术 的 更 新 ， 第 1 版 的 内 容 已 逐渐 变 者 ， 为 了 与 时 俱 进 ， 所 以 准备 再 写 一 本 关于 MariaDB 10 和 MySQL 5.7 的 数据 库 图 书 ， 把 自己 学 到 的 新 知识 做 一 个 系统 性 总 结 
来 呈现 给 大 家 。 目 前 市 面 上 针对 相关 知识 进行 介绍 的 书 还 寥寥 无 几 ， 大 多 数 读者 只 能 通过 阅读 英文 手册 去 获取 新 的 知识 ,希望 本 书 的 出 版 能 对 大 家 有 所 帮助 。 


本 书 以 构建 高 性 能 MySQL 服 务 器 为 核心 内 容 ， 介 绍 了 MariaDB 10 和 MySQL 5.7 的 新 特性 ， 并 从 故障 诊断 与 优化 、 性 能 调 优 、 备 份 与 恢复 、MySQL 高 可 用 集群 搭建 与 管理 、MySQL 服 务 器 性 能 和 服务 
监控 等 角度 深入 讲解 了 如 何 去 管 理 与 维护 MySQL 服 务 器 。 书 中 内 容 均 来 自 于 笔者 多 年 实践 经 验 的 总 结 和 新 知识 的 拓展 ， 同 时 也 包含 很 多 实用 的 情景 模拟 ， 并 针对 运 维 人 员 、DBA 等 相关 工作 者 常 遇 到 的 有 代 
表 性 的 疑难 问题 给 出 了 解决 方案 。 不 论 你 目前 有 没有 遇 到 过 此 类 问题 ， 相 信和 都 会 有 借鉴 意义 。 


如 何 阅读 本 书 
本 书 的 知识 结构 分 四 部 分 : 
第 一 部 分 (第 1 章 至 第 2 章 ) 介绍 MySQL5.7/MariaDB 10 的 新 特性 、 注 意 事项 、 安 装 和 升级 方法 。 


第 二 部 分 (第 3 章 至 第 6 章 ) 为 故障 诊断 与 优化 ， 涉 及 生产 环境 下 MySQL 故 障 处 理 ， 以 及 性 能 调 优等 内 容 ， 包 括 表 设计 阶段 学 式 的 理解 、 字 段 类 型 的 选取 、 采 用 表 锁 还 是 行 锁 、MySQL 默 认 的 隔离 级 别 
与 传统 SQL Server， 以 及 Oracle 数 据 库 默认 的 隔离 级 别 的 区 别 、SQL 语 句 的 优化 ， 以 及 合理 利用 索引 等 。 


第 三 部 分 (第 7 章 至 第 10 章 ) 为 架构 篇 ， 内 容 包括 当前 互联 网 流行 的 高 可 用 架构 MHA (Master High Availability) 、 分 库 分 表 中 间 件 Oneproxy 和 读 写 分 离 中 间 件 MariaDB MaxScale, LAR 


Percona/MariaDB Galera Cluster 集 群 管理 。 

第 四 部 分 (第 11 章 ) 阐述 慢 sQL 管 理 平 台 的 搭建 与 维护 ， 主 要 介绍 集中 收集 慢 日 志 查 询 。 

本 书 的 每 个 部 分 都 可 以 单独 作为 一 本 迷你 书 阅 读 ， 如 果 你 未 接触 MySQL5.7/MariaDB 10， 建 议 从 第 一 部 分 开始 阅读 。 本 书 提供 的 脚本 和 相关 软件 ， 请 在 华章 网 站 (www.hzbook.com) 的 本 书页 面 下 
载 。 
勘误 和 支持 

由 于 作者 的 水 平 有 限 ， 编 写 的 时 间 也 很 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 不 妥 之 处 恳请 读者 批评 指正 。 你 可 以 将 书 中 的 错误 ， 发 送 邮件 至 我 的 邮箱 chunyang_he@139.com 或 者 通过 
QQ 联系 我 : 3783414， 我 很 期 待 能 够 听 到 你 们 真挚 的 反馈 。 
致谢 

在 这 里 感谢 沃 趣 科技 公司 高 级 DBA 印 文 辉 提供 《MariaDB 10 Hash Join 索 引 优化 》 一 文 。 

感谢 机 械 工业 出 版 社 华章 公司 的 编辑 杨 组 国 老师 ， 感 谢 你 的 魄力 和 远见 ， 在 这 一 年 多 的 时 间 中 始终 支持 我 的 写作 ， 你 的 鼓励 和 帮助 引导 我 顺利 完成 全 部 书稿 。 

KAA 


2016 年 5 月 于 北京 


第 1 章 MariaDB 架 构 与 历史 


本 书 以 MariaDB 10.1 和 MySQL 5.7 为 主要 介绍 对 象 ， 为 了 让 广大 读者 了 解 什 么 是 MariaDB， 首 先 对 其 进行 介绍 。 


1.1 MariaDB 的 介绍 


MariaDB 是 MySQL 源 代码 的 一 个 分 支 ， 主 要 由 开源 社区 在 维护 ， 采 用 GPL 授 权 许 可 。 开 发 这 个 分 支 的 原因 之 一 : 甲骨 文公 司 收购 了 MySQL 后 ， 有 将 MySQL 闭 源 的 潜在 风险 ， 因 此 社区 采用 分 支 的 方式 
来 避 开 这 个 风险 。MariaDB 是 完全 兼容 MySQL 的 ， 包 括 API 和 命令 行 ， 使 之 能 轻松 成 为 MySQL 的 代替 品 。 在 存储 引 警 方面， 使 用 XtraDB 来 代 蔡 MySQL 的 InnoDB，XtraDB 完 全 兼容 InnoDB。 创 建 一 个 
InnoDB 表 ， 内 部 默认 会 转换 成 XtraDB， 如 图 1-1 所 示 。 


show engines; 


ollection of identical MyISAM tables | 

storage engine | 

1-safe tables with MyISAM heritage | 

SAM storage engine ) i | 

MEMORY b | 
InnoDB | 
SEQUENCE | 


ased, stored in memory, useful for temporary tables 


PERFORMANCE SCHEMA 


图 1-1 默认 XtraDB 存 储 引 学 


Percona XtraDB 是 InnoDB 存 储 引 警 的 增强 版 ， 可 用 来 更 好 地 发 挥 最 新 的 计算 机 硬件 系统 性 能 ， 同 时 还 包含 一 些 在 高 性 能 环境 下 的 新 特性 。XtraDB 人 存储 引擎 是 完全 向 下 兼容 的 ， 在 MariaDB 
中 ，XtraDB 人 存储 引 警 被 标识 为 "ENGINE=InnoDB"， 这 与 InnoDB 是 一 样 的 ， 所 以 可 以 直接 用 XtraDB 蔡 换 掉 InnoDB， 而 不 会 产生 任何 问题 。XtraDB 在 InnoDB 的 基础 上 构建 ， 使 XtraDB 具 有 更 多 的 特性 、 
更 多 的 参数 指标 和 更 多 的 扩展 。 从 实践 的 角度 来 看 ，XtraDB 人 在 CPU 多 核 的 条 件 下 会 更 有 效 地 使 用 内 存 ， 并 且 性 能 更 高 。 从 MariaDB 5.1 开 始 就 默认 使 用 XtraDB 人 存储 引擎 。 


MariaDB 由 MySQL 的 创始 人 Michael(Monty)Widenius 主 导 开 发 ， 早 前 他 曾 以 10 亿 美元 的 价格 将 自己 创建 的 公司 MySQL AB 卖 给 了 Sun 公 司 ， 此 后 ， 随 着 Sun 公 司 被 甲骨 文公 司 收购 ，MySQL 的 所 有 权 
也 落 入 Oracle 公 司 的 手中 。MariaDB 名 称 来 自 Michael(Monty)Widenius 的 女儿 Maria 的 名 字 。 


MariaDB 10.0 和 MySQL 5.6 的 不 同 之 处 


MySQL 5.6 的 代码 库 的 文件 结构 已 经 被 改动 。 比 如 单个 代码 文件 已 经 被 分 成 多 个 ， 又 或 者 某 些 代 码 已 经 被 重新 归 类 到 不 同 的 文件 内 。 所 以 要 MariaDB 去 配合 现在 这 个 文件 结构 ， 一 定 是 一 个 非常 消耗 时 
间 的 过 程 。 


MairaDB 5.5 已 经 有 大 量 的 代码 不 同 于 MySQL 5.5 的 版 本 ， 而 且 也 有 很 多 新 的 特征 被 整合 到 MariaDB 5.5 中 ， 而 这 些 特征 直到 MairaDB 5.6 才 出 现在 MySQL 中 。 所 以 ， 在 比较 同样 功能 的 MySQL 和 
MariaDB 的 版 本 ， 同 时 在 完成 设计 和 QA 方 面 的 审核 后 ， 一 个 很 明显 的 结论 为 MariaDB 是 一 个 更 好 的 产品 。 大 多 数 情况 下 ， 当 选择 MariaDB 的 时 候 ， 人 们 会 更 多 地 考虑 功能 方面 的 偏好 。 


MariaDB 不 仅仅 是 MySQL 的 一 个 替代 品 。 它 的 主要 目的 是 创新 和 提高 MySQL 的 技术 ，MySQL5.6 不 是 一 个 合适 的 创新 基础 平台 ， 所 以 MariaDB 团 队 做 了 下 面 的 事情 。 
. 引入 了 一 些 新 功能 〈 像 Multi-soutce Replication 多 源 复 制 、 基 于 表 的 并 行 复制 、Galeta Cluster Z$, Spider KPA H AH 4) FE. TokuDB 445 5| SEA) ， 所 以 需要 一 个 新 版 本 。 
“ 下 一 个 版 本 称 为 “MariaDB 5.6” 是 不 准确 的 ， 因 为 它 不 是 基于 MySQL 5.6 的 ， 取 而 代 之 ，MatiaDB 团 队 决 定 版 本 号 调 为 10.0。 


MariaDB 和 Percona 有 什么 不 同 呢 ? Percona 是 仅 针 对 InnoDB 引 警 做 了 性 能 上 的 改善 ( 称 为 XtraDB) ， 而 MariaDB 在 集成 了 XtraDB 存 储 引 擎 之 外 ， 还 集成 了 更 多 的 存储 引擎 ， 包 括 Aria、SphinxSE、 
TokuDB、Cassandra、CONNECT、SEQUENCE 及 Spider 存储 引 警 等， 并 且 人 在 服 务 器 层 上 做 了 大 量 改 进 ， 增 加 了 多 源 复制 和 基于 表 的 并 行 复 制 等 。 


1.2 ”MariaDB 和 和 MySQL 的 兼容 性 


MariaDB 和 MySQL 在 绝 大 多 数 方面 是 兼容 的 ， 对 于 前 端 应 用 (比如 PHP、Perl、Python、Java、.NET、MyODBC、Ruby、MySQL C connector) 来 说 ， 几 平 感觉 不 到 任何 不 同 。 目 前 MariaDB 是 发 
展 最 快 的 MySQL 分 支 版 本 ， 新 版 本 的 发 布 速度 已 经 超过 了 Oracle 公 司 官方 的 MySQL 版 本 。 


Qua MariaDB 10.0/10.1 85 GTID & 48] 5 MySQL 5.6 不 兼容 。 

在 Oracle 公 司 控制 下 的 MySQL 开 发 有 以 下 两 个 主要 问题 。 

"MySQL 核心 开发 团队 是 封闭 的 ， 完 全 没有 Oracle 公 司 之 外 的 成 员 参 加 。 很 多 高 手 即 使 有 心 做 贡献 ， 也 没 办 法 做 到 。 

- MySQL 新 版 本 的 发 布 速 度 在 Oracle 公 司 收购 Sun 公 司 之 后 大 大 减缓 。 
Michael(Monty)Widenius 用 数据 比较 了 收购 之 前 和 之 后 新 版 本 的 发 布 速度 ， 并 表示 有 很 多 bugfix 和 新 的 feature 都 没有 及 时 加 入 发 布 版 本 中 。 


以 上 这 两 个 问题 ， 导 致 了 各 大 公司 都 开发 了 自己 定制 的 MySQL 版 本 ， 包 括 Yahoo、Facebook、Google、 阿 里 巴巴 和 淘宝 网 等 。MySQL 是 开源 社区 的 资产 ， 任 何 个 人 /组 织 都 无 权 据 为 己 有 。 为 了 更 快 
速 地 发 展 MySQL， 另 外 开 分 支 是 必须 的 。 


1.3 MariaDB 10.0 新 增 的 功能 


通过 下 面 官网 的 对 比 图 ( 见 图 1-2~ 图 1-5) ， 可 以 清晰 地 看 到 MariaDB 10 新 增加 的 功能 。 


Compare Products MySQL 5.6 MariaDB 10 

What is it? MySQL 5.6 is a popular choice of MariaDB 10 is a enhanced, high 
database for use in web applications, performance, free and open source 
and is a central component of the alternative to MySQL that helps the 
widely used LAMP web application world's busiest websites deliver more 
software stack. content faster. 

SCALABILITY 

Parallel Slave Replication [more] single threaded per database 


Multi-source Replication [more] 
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Global Transaction ID [more] Limited 
sharding - Spider Storage Engine [more] 3rd party 
Table Partitioning: Improvements [more] v 


图 1-2 ”可 伸缩 性 和 可 扩展 性 的 对 比 


PERFORMANCE 

TokuDB Storage Engine [more] ard party 
Improved InnoDB storage engine [more] v 
Performance Schema [more] Iv 
Improved thread pool [more] MySQL Enterprise only 


Fusion-io specific enhancements [more] 


Engine Independent Table Statistics [more] 


Subquery Optimizations [more] 


$$$ SIS SSIS 


Histogram Stats for Non-Indexed Columns [more] 


图 1-3 性 能 对 比 


NOSQL CAPABILITIES 


CONNECT storage engine [mare] 


Sequence storage engine [more] 


NoSQL Cassandra Storage Engine [more] 


Dynamic Columns [more] 
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NoSQL Handlersocket interface [more] 
NoSQL memcache interface [more] v 


图 1-4 NoSQL 支 持 对 比 


OPERATIONS 


Improved table discovery [more] 
SHOW PLUGINS SONAME [more] 
SHUTDOWN Command [more] 

Kill query by query ID [more] 

SHOW EXPLAIN Command [more] 
Per-thread Memory Statistics [more] 
Improved Error Messages [more] 


Online ALTER TABLE [more] a 


$$$ ««& 


SECURITY & COMPLIANCE 


Role-based access control [more] 


Audit Plugin [more] MySQL Enterprise only 


PAM Authentication Plugin [more] MySQL Enterprise only 


KISIS 


图 1-5 ”操作 和 安全 上 的 对 比 


从 图 1-2~ 图 1-5 可 以 看 到 ， 在 功能 上 ，MariaDB 10.0 已 经 完胜 MySQ L5.6, MySQ L5.7 才 慢 慢 将 缺失 的 功能 追 补 上 来 ， 并 且 线 程 池 、 审 计 日 志 等 功能 是 出 现在 MySQL 企 业 版 里 的 ， 需 要 付费 。 


14 如何 将 MySQL 迁 移 至 MariaDB 


以 MySQL 5.1 版 本 为 例 ， 若 要 升级 到 MySQL 5.6， 需 要 进行 一 次 全 库 mysqldump 导 出 再 导入 ， 当 数据 库 很 大 时 ， 比 如 为 100GB， 那 么 升级 起 来 会 非常 困难 。 但 如 果 升 级 为 MariaDB 10 版 本 ， 则 会 非常 
轻松 ， 按 照 官方 文档 阐述 ， 只 需 把 MySQL 御 载 掉 ， 并 用 MariaDB 启 动 ， 然 后 通过 mysql_upgrade 命 令 升级 即 可 完成 ， 如 图 1-13 所 示 。 


For all practical purposes. you can view MariaDB as an uparade of MySQL 


If you are using Windows, see also Upgrading MariaDB on Windows 
For upgrading from very old MySQL versions, see Upgrading to MariaDB from MySQL 5.0 (or older 
version) 
Within the same base version (for example 5.1) you can just uninstall MySQL and install MariaDB and you 
are good to go. There is no need to dump and restore databases. As with any upgrade, we recommend 
making a backup of your data beforehand 
You should run mysql upgrade (just as you would with MySQL) to finish the upgrade. This is needed to 
ensure that your mysql privilege and event tables are updated with the new fields MariaDB uses. Note that 
if you use a MariaDB package. mvsgl upgrade is usually run automatically 

o After running mysgl upgrade you should restart MariaDB so that the new changes takes effect 
All your old clients and connectors (PHP. Perl, Python, Java. etc.) will work unchanged (no need to 
recompile). This works because MariaDB and MySQL use the same client protocol and the client libraries 
are binary compatible. You can also use your old MySQL connector packages with MariaDB If you want 


图 1-13 ”升级 步骤 


当 处 理 内 部 的 临时 表 时 ，MariaDB 5.5/10.0ĦAria5 |EE(CESMyISAMS|&E, MariaDB 10.1 可 以 通过 设置 参数 default tmp_storage_engine=lnnoDB 作 为 内 部 临时 表 存 储 引 警 ， 这 将 使 基 些 GROUP BY 
和 DISTINCT 请 求 速度 更 快 ， 因 为 Aria 有 比 MylSAM 更 好 的 缓存 机 制 。 如 果 | 临 时 表 很 多 ， 则 要 增加 aria_pagecache_buffer _ size 参数 的 值 (缓存 数据 和 索引 ) ， 上 默认 为 128MB (而 不 是 tmp table size& 
数 ) 。 如 果 没 有 MylSAM 表 ， 那 么 建议 把 key_buffer_ size 调 低 ， 而 且 要 调 得 非常 低 ， 例 如 64KB， 仪 提供 给 MySQL 库 中 的 系统 表 使 用 ， 如 图 1-14 所 示 。 


Upgrading my.cnf 
All the options in your original MySQL my.cnf file should work fine for MariaDB 


However as MariaDB has more features than MySQL, there is a few things that you should consider changing 
in your my.cnf file 
« MariaDB uses by default the Aria storage engine for internal temporary files. instead of MyISAM. If you 
have a lot of temporary files, you should add and set aria-pagecache-buffer-size to the same value as 
you have for key-butfer-size 
« |f you don't use MyISAM tables, you can set key-buffer-size to a very low value, like 64K 


图 1-14 内 部 临时 表 存储 引擎 


什么 是 Aria 呢 ? Aria 是 早期 MariaDB 版 本 的 默认 存储 引擎 ， 自 2007 年 以 来 它 一 直 在 开发 ， 当 前 版 本 是 Aria 1.5， 下 一 个 版 本 是 Aria 2.0。Aria 引 警 前 身 为 Maria， 后 来 怕 和 MariaDB 数 据 库 搞 混淆 ， 又 重 
新 命名 ， 是 增强 版 的 MylISAM， 解 决 了 MylSAM 崩 省 安全 恢复 问题 ， 也 就 是 说 ，mysqld 的 进程 崩 演 后 ，Aria 将 恢复 所 有 表 。 


1.Aria 引 警 的 宕 机 恢复 
数据 和 索引 支持 骨 溃 安全 恢复 ， 在 崩溃 后 ， 表 数据 的 变化 将 回 滚 语句 的 开始 状态 或 最 后 一 个 LOCK TABLES 的 命令 状态 ( 见 图 1-15) 。 
[root@MariaDB1 datal# tail -f error. log 


140626 19:01:10 mysqld_safe Number of processes running now: 0 
140626 19:01:10 mysqld_safe mysqld restarted 


140626 19:01:14 [Note] mysqld: Aria engine: starting recovery 

recovered pages: 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% (10.8 seconds); transactions to roll back: 1 0 (1.3 seconds): tables to 
flush: 1 0 (1.3 seconds): 

140626 19:01: 


图 1-15 HAKA 


2.Aria 引 警 的 未 来 和 发 展 


官方 在 未 来 会 让 Aria 全 面 支持 事务 ， 但 现在 只 是 加 入 计划 当中 ， 并 不 在 它们 内 部 开发 的 优先 级 列表 中 。 目 前 这 个 引擎 官方 都 已 暂停 开发 ， 现 在 重点 都 放 在 了 改善 MariaDB 上 。 当 前 的 目标 是 保持 稳定 和 
修复 所 有 发 现 的 bug 并 进行 修复 。 


3. 实 验 验 证 当前 版 本 不 支持 事务 


下 面 做 个 实验 验证 当前 版 本 是 否 支持 事务 ， 启 用 关键 字 TRANSACTIONAL=1。 


MariaDB [test]» create table t5 (id INT) ENGINE-ARIA  TRANSACTIONAL-1; 


Query OK, 0 rows affected (0.99 sec) 
MariaDB [test]> begin; 

Query OK, 0 rows affected (0.07 sec) 
MariaDB [test]> insert into t5 values(1); 
Query OK, 1 row affected (0.94 sec) 
MariaDB [test]> rollback; 

Query OK, 0 rows affected, 1 warning (0.00 sec) 
MariaDB [test]> select * from t5; 

十 一 一 一 一 一 一 十 

| id | 

十 一 一 一 一 一 一 十 

| XE | 

十 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


从 以 上 代码 中 可 以 看 到 并 没有 进行 回 滚 。 


1.5 ”使 用 二 进 制 包 安装 MariaDB 10.1 企 业 版 


访问 MariaDB 官 方 下 载 企 业 版 ， 需 要 先 注册 一 个 用 户 才能 下 载 ， 下 载 地 址 为 : https://mariadb.com/resources/downloads 
安装 过 程 如 下 : 


shell» groupadd mysql 

shell» useradd -g mysql mysql 

shell» cd /usr/local 

shell» tar zxvf mariadb-enterprise-10.1.10-linux-x86 64.tar.gz 
shell» ln -s mariadb-enterprise-10.1.10-linux-x86 64 mysql 
shell» chown -R mysql:mysql  mysql/ 
shell» scripts/mysql install db --user=mysql 
shell» chown -R mysql:mysql /data/ 

shell» bin/mysqld safe --defaults-file-/etc/my.cnf --user-mysql & 


官方 推荐 使 用 emalloc 内 存 管理 器 获取 更 好 的 性 能 ， 如 图 1-16 所 示 。 


e |f your applications often connect and disconnect to MariaDB, you should set up thread-cache-size to the number 
of concurrent queries threads you are typically running. This is important in MariaDB as we are using the jemallac 
memory allocator. jemalloc usually has better performance when running many threads compared to other memory 
allocators, except if you create and destroy a lot of threads, in which case it will spend a lot of resources trying to 
manage thread specific storage. Having a thread cache will fix this problem. 


图 1-16 ”MatiaDB 调 用 jemalloc 内 存 管 理 器 


# yum install jemalloc* -y 


(Centos 系 统 需要 先 安装 epel.repo 源 。 ) 


将 下 面 的 参数 加 入 my.cnf 里 ， 在 局 动 MySQL 时 使 其 生效 ， 如 图 1-17 所 示 。 


innadb use SYS malloc | LN 
Ver iium mellsc. library | bundled jemalloc | 


rows in set (0.00 sec) 


图 1-17 jemalloc 内 存 管理 器 已 使 用 


[mysqld safe] 
malloc-lib = /usr/lib64/libjemalloc.so 


内 存 管理 器 性 能 对 比如 图 1-18 所 示 。 


Relative www server throughput 


for six malloc implementations 


Normalized througput 


(taller bars are better) 


glibe 2.5 . ptmalloc3 Hoard 3.8 concur 1.0.2 temalloc 1.4 jemalloc 2.1.0 


图 1-18 性 能 对 比 


1 。 6 I 


MariaDB 是 甲骨 文公 司 MySQL 的 加 强 版 本 ， 因 此 已 有 的 系统 不 需要 任何 修改 就 可 以 运行 ， 就 像 使 用 Percona Server 一 样 。 
MariaDB 社 区 版 和 企业 版 的 源 代码 都 是 开源 的 ， 并 且 所 有 功能 都 是 免费 开放 的 ， 不 用 担心 功能 上 有 删 减 ， 但 甲骨 文公 司 的 MySQL 企 业 版 延伸 套件 采取 封闭 源 代 码 且 需要 付费 。 


此 外 ， 相 比 MySQL，MariaDB 拥 有 更 多 的 功能 ， 速 度 更 快 ， 性 能 更 稳定 ，Bug 修 复 速度 也 更 快 。 


第 2 章 MySQL 5.7 与 MariaDB 10.1 的 新 特性 


MySQL 是 一 个 中 小 型 的 关系 型 数据 库 管 理 系统 ， 由 瑞典 MySQL AB 公 司 开 发 ， 目 前 属于 Oracle 公 司 。 由 于 它 具 有 性 能 高 、 成 本 低 、 可靠 性 好 等 特点 ， 近 几 年 已 经 成 为 最 流行 的 开源 数据 库 ， 被 广泛 地 应 
用 在 Internet 的 中 小 型 网 站 中 。 而 且 ， 随 着 MySQL 的 不 断 成 熟 ， 现 在 它 也 逐渐 用 于 更 多 大 规模 的 网 站 和 应 用 了 ， 比 如 维基 百科 、Google 和 Facebook 等 。 非 常 流行 的 开源 软件 组 合 “LAMP” 中 的 “M” 指 
的 就 是 MySQL。 


这 几 年 ，MySQL 的 版 本 在 不 断 变 更 ， 可 以 说 是 有 了 翻天 覆 地 的 变化 ， 在 之 前 的 4.0 版 本 中 ， 没 有 存储 过 程 、 触 发 器 、 函 数 、 事 件 ， 对 CPU 多 核 的 支持 也 不 好 ， 在 经 历 了 5.0 和 5.1 两 个 过 渡 版 本 后 ， 到 5.5 
版 ， 其 性 能 和 功能 已 经 得 到 了 很 大 改善 ， 主 要 体现 在 CPU 多 核 处 理 速 度 上 有 了 很 大 提高 ， 宕 机 恢复 时 间 减 少 ， 可 快速 创建 索引 ， 并 具有 半 同 步 复制 功能 等 方面 ， 目 前 这 个 版 本 很 稳定 。2015 年 11 月 ， 最 新 版 
本 5.7 已 经 出 了 GA 版 ， 但 这 里 不 推荐 直接 将 其 用 于 生产 环境 中 ， 因 为 该 版 本 还 有 许多 未 知 bug 在 修复 ， 建 议 1 年 后 再 开始 应 用 ， 不 要 充当 小 白鼠 ， 本 书 也 只 会 针对 该 版 本 部 分 功能 上 的 新 特性 进行 介绍 。 


本 章 主要 讲解 MySQL 5.7 和 InnoDB 的 一 些 增强 性 能 ， 这 些 增强 性 能 极 大 地 提高 了 系统 和 MySQL 的 性 能 。 下 面 将 详细 介绍 每 一 个 关键 的 增强 性 能 及 其 实现 过 程 。 


为 了 不 误导 读者 ， 保 证 全 文 的 准确 性 ， 下 面 的 内 容 会 结合 MySQL 5.7 官 方 手册 《What Is New in MySQL 5.7》 中 的 内 容 来 讲解 ， 以 帮助 读者 认识 MySQL 5.7 中 一 些 较为 重要 的 变化 ， 其 中 也 许 会 有 琉 
漏 的 地 方 ， 不 到 之 处 请 大 家 访问 http://dev.mysql.com/doc/refman/5.7/en/mysql-nutshell.html 参 考 相关 的 英文 文档 。 


Quas 本 章 列 出 了 MySQL 5.7 feMatriaDB 10.1 的 关键 新 特性 。 


2.1 (EREET 


MySQL 5.7 在 支持 多 处 理 器 和 高 度 并 发 CPU 线程 的 系统 上 ， 提 供 更 持续 的 线性 性 能 和 扩展 性 。 实 现 这 一 点 的 天 键 是 通过 改进 Oracle InnoDB 人 存储 引 警 的 效率 和 并 发 性 ， 来 消除 InnoDB 内 核 中 原 有 的 线程 


争 用 和 互 斥 锁定 的 现象 。 通 过 这 些 改进 ，MySQL 可 以 充分 利用 当今 基于 x86 的 商用 硬件 先进 的 多 线程 处 理 能 力 。 


在 OLTP 只 读 模式 下 ，MySQL 5.7 有 近 100 万 的 QPS (Queries Per Second) ， 比 MySQL 5.6 性 能 高 3 倍 ， 如 图 2-1 所 示 。 


1 200 000 
- 1000 000 MySQL 5.7 
5 
2 800000 
un) 
2 600000 
3 —MySQL 5.6 
5 400 000 
© 200 000 
i MySQL 5.5 
8 16 32 64 128 256 512 1024 
Connections 
图 2-1 sysbench A 33 XX, - 每 秒 查询 数 
在 OLTP 读 / 写 模式 下 ，MySQL 5.7 压 缩 到 了 近 60 万 的 TPS， 比 MySQL 5.6 的 性 能 提升 了 2 倍 ， 如 图 2-2 所 示 。 
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在 多 核 CPU 上 ，MySQL 5.7 在 72 核 上 的 表现 优 于 MySQL 5.6 的 ， 如 图 2-3 所 示 。 
官方 服务 器 的 硬件 配置 如 下 。 

- Intel(R)Xeon(R)CPU E7-8890 v3。 

- 4 sockets x 18 cores-HT(144 CPU threads) o 

- 2.5 Ghz, 512GB RAM. 


: Linux kernel 3.16. 


Queries per Second 
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更 详细 的 压 测报 告 ， 
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图 2-3” 多核 CPU - 每 秒 查询 数 


趣 的 读者 可 以 访问 官网 ，URL 地 址 : http://www.mysql.com/why-mysql/benchmarks/, 


该 功能 只 在 MySQL 5.7 和 Percona5.7 版 本 里 支持 。 为 了 更 容易 地 支持 安全 连接 ，MySQL 5.7 在 启动 的 时 候 ， 使 用 OpenSSL 可 以 自动 生成 SSL 和 RSA 证 书 和 密 钥 文件 。 安 全 套 接 层 (Secure Sockets 
Layer, SSL) 及 其 继任 者 传输 层 安 全 (Transport Layer Security, TLS) 是 为 网 络 通 信 提 供 安 全 及 数据 完整 性 的 一 种 安全 协议 。TLS 与 SSL 在 传输 层 对 网 络 连接 进行 加 密 ， 用 以 保障 在 Internet 上 数据 传输 之 
安全 ， 利 用 数据 加 密 (Encryption) 技术 ， 可 确保 数据 在 网 络 上 之 传输 过 程 中 不 会 被 截取 及 窃听 。 


下 面 介 绍 MySQL 5.7 的 SSL 配 置 与 使 用 方式 。 


使 用 二 进 制 包 安 装 MySQL 5.7 社 区 版 时 ， 下 载 地 址 为 http://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.10-linux-glibc2.5-x86 64.tar.gz。 


安装 过 程 如 下 : 

shell» groupaad mysql 

shell» useradd -r -g mysql -s /bin/! 
shell» cd /usr/local 

shell» tar zxvf mysql-5.7.1 

shell» ln -s mysqi-5.7.10-linux-gl 
shell» chown -R mysql:mysql mysql/ 


现在 已 经 不 用 如 下 的 mysql_install_db 命 令 安装 MySQL 5.77. 


shell» bin/mysql install db --user=mysql 


False mysql 


已 改 为 用 如 下 的 mysqld--initialize 命 令 安装 MySQL 5.7: 


0-linux-glibc2.5-x86 64.tar.gz 
ibc2.5-x86 64 mysql 


shell» bin/mysqld --initialize --user-mysql --basedir-/usr/local/mysql 


--datadir-/data/mysql/ 

[root@slavel mysql]4 bin/mysqld --initialize --user=mysgl --basedir-/usr/local/mysql --datadir-/data/mysql/ 

2016-01-16T07:53:30.603509Z 0 [Warning] TIMESTAMP with implicit DEFAULT value is deprecated. Please use --explicit defaults for timestamp server option (see documentation f 
2016-01-16T07:53:32.411224Z 0 [Warning] InnoDB: New log files created, 7 LE 

LSN-45790 

2016-01-16T07:53:32.5762272 0 [Warning] InnoDB: Creating foreign key constraint system tables. 

2016-01-16T07:53:32.945296Z 0 [Warning] No existing UUID has been found, so we assume that this is the first time that this server has been started. Generating a new UUI 
2016-01-16T07:53:32.980971Z 0 [Warning] Gtid table is not ready to be used. Table 'mysql.gtid executed' cannot be opened. 

2016-01-16T07:53:33.031378Z2 1[Note] A temporary password is generated for E 

root@localhost: iFv4pm2«bwQ9 

2016-01-16T07:53:35.841432Z2 1 [Warning] 'user' entry 'root@localhost' ignored in 

--skip-name-resolve mode. 

2016-01-16T07:53:35.841461Z 1 [Warning] 'user' entry 'mysql.sys@localhost' 

ignored in --skip-name-resolve mode. 

2016-01-16T07:53:35.841478Z2 1 [Warning] 'db' entry 'sys mysgl.sys@localhost' 

ignored in --skip-name-resolve mode. 

2016-01-16T07:53:35.8414952 1 [Warning] 'proxies priv' entry '@ root@localhost' 

ignored in --skip-name-resolve mode. 

2016-01-16T07:53:35.8415342 1 [Warning] 'tables priv' entry 'sys config 


D: 3d6 


mysql.sys@localhost' ignored in --skip-name-resolve mode. 


请 注意 ! 在 初始 化 安装 的 时 候 ， 会 生成 一 个 root 用 户 随机 的 初始 密码 ， 请 将 其 保存 好 ， 如 下 : 


[Note] A temporary password is generated { 


通过 如 下 命令 开启 SSL 加 密 : 


for root@localhost: iFv4pm2«bwQ9 


shell» bin/mysql ssl rsa setup 


在 执行 完 mysql ssl rsa setup SA, 


lroot@master 
mysql 
mrsql 
mrsql 
mrsql 
mrsql 
mysql 


M EP quo 
=== 


She = 


mysql 
mrsql 
mrsql 
mrsql 
mrsql 
mysql 


167% 
1074 
107s 
167 
1675 


d^] 


会 在 /data/ 目 录 下 生成 .pem 后 缀 名 文件 ， 这 就 是 SSL 连 接 所 需要 的 文件 ， 如 图 2-4 所 示 。 


mvsgllJt 11 *. pem 


[2 


[2 
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[2 


[2 
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LETS 


" 


mvsql mysql 
mysql mysql 


mrsql ls 


GN 


Rt eS ee Fe = — - e 
"ITI ITI ID TTD CTI ID HIT 


" 


[root@master 


图 2-4 ssl 公私 钥 文 件 


将 数据 目录 属性 修改 为 mysql， 命 令 如 下 : 


shell» chown -R mysql:mysql  /data/ 


并 执行 下 面 的 命令 启动 MySQL。 


shell» bin/mysqld safe --user=mysql & 


首先 要 修改 root 密 码 ， 把 之 前 系统 生成 的 初始 密码 改 掉 ， 可 使 用 命令 SET PASSWORD=PASSWORD('123456'); 完 成 操作 ， 代 码 如 图 2-5 所 示 。 


[root@slavel  ]&ü 
[root@slavel ]# mysql -uroot -p'iFvdpmn2cbwQ23" 
mrsql: [Warning] Using a password on the command line interface can be insecure. 
Welcome to the MySQL monitor. Commands end with ; or *z. 
Your MySQL connection id is Z 

Server version: b. 7. 10-log 


Copyright (cJ) 2000, 2015, Oracle and/or its affiliates. All rights reserved. 


Üracle is a registered trademark of Oracle Corporation and/or its 
atfiliates. Uther names may be trademarks of their respective 
omer Ss. 


Type help; or ME for help. Type "c to clear the current input statement. 


mrsql> SET PASSWORD = PASSWORD 123456): 
Query OF, 0 rows affected, 1 warning (0.40 sec) 
图 2-5 修改 初始 密码 


然后 使 用 密码 123456 登 录 ， 如 图 2-6 所 示 。 


[root@slavel  ]t mysql -uroot -pl23456 -e "select version():” 
mvsql: [Warning] Using a password on the command line interface can be insecure. 


| version{) | 


[root@slavel ”|]# 


图 2-6 BREW 


至 此 ，MySQL 5.7 安 装 完毕 。 


如 果 你 比较 懒 ， 不 想 每 次 都 输入 密码 ， 那 么 在 MySQL 5.6/5.7 版 本 里 提供 了 mysql_config_editor 工 具 ， 是 用 于 用 户 安 全 认证 的 ， 使 用 方法 如 下 : 


fig editor set --login-path-client --host-localhost --user-root --password 


mysql conf 


回 车 后 输入 root 密 码 123456， 如 图 2-7 所 示 。 


[root@slavel “]# mvsql config editor set --login-path-client --host-localhost --user-root --password 


Enter password: 

[root@slavel "]& 

[root@slavel  ]& pwd 

/ront 

[root@slavel “J# cat .mylogin.cnf 


图 2-7 ”生成 免 密 登录 认证 文件 
此 时 ， 会 在 /root/ 目 录 下 生成 一 个 隐藏 文件 .mylogin.cnf， 查 看 是 乱码 的 。 
然后 就 可 以 用 mysql--login-path=client 来 进行 免 密 登录 了 ， 如 图 2-8 所 示 。 


SUIS ”在 root 用 户 密码 变更 后 ， 需 要 重新 执行 mysql_config_editor， 和 否则 登录 失败 。 


[root@slavel “TH 
[rontüslavel “]# mysql —-login-path=client 
Welcome to the MySQL monitor. Commands end with ; or ig. 


Your MywSQL connection id is 15 
Server version: 5.7.10-log MySQL Community Server (GPL) 


Copyright (c) 2000, 2015, Oracle and/or its affiliates. All rights reserved. 


Üracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 


OWTIETS. 


Type help; or "iH for help. Type “ce to clear the current input statement. 


mysql? select versioni); 


| version) | 


1 row in set (0.09 sec) 
图 2-8” 免 密 登 录 


如 果 觉 得 输入 一 长 串 参 数 还 嫌 麻 烦 ， 那 么 加 入 系统 别名 里 好 了 ， 下 次 直接 输入 mm 即 可 ， 如 图 2-9 所 示 。 


DUS 


[root@slavel “]# vim .bashre 

[root@slavel  ]&ü 

[root@slavel ]# grep ‘mysql’ /root/’. bashre 

alias mF /usr/local/myeql/bin/mysql --login-path=client’ 
[root@slavel J]# 

[root@slavel  ]t source /root/. bash profile 

[root@slavel ]# 


[root@slavel “]# mm -e “select version();” 


| version() | 


图 2-9 ”别名 方式 登录 
蕊 注意 MariaDB 10.1 版 本 没有 这 个 工具 。 
当 启动 MySQL 时 ， 可 以 发 现 如 图 2-10 所 示 的 状态 ， 代 表 已 经 正常 工作 。 
创建 用 户 的 时 候 ， 需 要 指定 该 用 户 通过 SSL 连 接 : 可 通过 命令 GRANT ALL PRIVILEGES ON*.*TO 'ssluser (9 '%' IDENTIFIED BY '123456' REQUIRE SSL; 实 现 ， 具 体 如 图 2-11 所 示 。 
然后 使 用 ssluser 用 户 登 录 ， 可 通过 命令 mysql-h192.168.17.128-ussluser-p123456 实 现 ， 具 体 如 图 2-12 所 示 。 


从 图 2-12 可 以 看 到 ，SSL 已 经 显示 加 密 了 。MySQL 5.6/MariaDB 10.1 同 样 支 持 以 SSL 的 方式 进行 连接 ， 但 是 操作 相对 MySQL 5.7 较 为 复杂 ， 用 户 需要 自己 通过 openss| 命 令 来 创建 各 类 公 密 钥 。 


mysql> show variables like ` 


have openssl 
have ssl 

sol ca 

ssl capath 
sol cert 

esl cipher 
ssl cri 

sol crlpath 


rows in set (0.35 sec) 


mysql> show variables like 'versionW ; 


version Bf. 1ü-lnog 
version comment MSL Community Server (GPL 


version compile machine xob hd | 
version compile os linux-zlibcz.b | 


4 rows in set (0.01 sec} 


图 2-10 SSL 己 生效 


mysql> GRANT ALL PRIVILEGES ON *.* TO 'ssluser @ «*' IDENTIFIED BT '123458' REQUIRE SSL: 
Query OF, 0 rows affected, 1 warning (0.16 sec) 


图 2-11 授权 SSL 方 式 登 录 


Connection id: 
Current database: 
» urrent user: 
Current pager: 
outfile: 
delimiter: 
oBIVE HE WE ersion: 
Protocol version: 
Connection: 


cr 
[| 
cT 
em 


server characterset: 
Db characterset: 
Client characterset: 
Conn. characterset: 


TEF port: 


该 功能 只 在 MySQL 5.7 和 Percona 5.7 版 本 里 支持 。 


using EditLine wrapper 


= 1 rT mim 
la n 
is DHE-RSAÀ-AES256-5HÀ 


T.lü-laz MySQL Community Server (GPL) 
10 
192.168. 1T. 128 via TCP/IP 
utfs 
utf&5 
uts 
uts 
S406 
3 hours 8 min bf 


图 2-12 SSL 连接 登录 


o 


这 个 功能 有 些 鸡 肋 的 感觉 ， 实 用 性 不 高 ， 在 生产 环境 上 修改 索引 名 字 的 情况 极 少 发 生 ， 其 表 结构 如 图 2-20 所 示 。 


| row in set (0.37 sec} 


mysql> show create table sbtest46: 
Oe oS e eo eo be e be e e e b ee 
Table: sbtest 
Create Table: CREATE TABLE "sbtest ( 
id int(10) unsigned NOT NULL AUTO INCREMENT, 
k int(10) unsigned NOT NULL DEFAULT ` 0°, 
^c char(120) NOT NULL DEFAULT '', 
‘pad varchar (60) is IT NULL DEFAULT '', 
PRIMARY KEY i id. 
KEY k ED 
| ENGINE-InnoD D 


] row in set 


ERROR.: 


Mao query spec 


图 2-20  sbtest# 2524 
现在 把 索引 k 修 改 为 idx_k， 执 行 命令 如 下 : 


alter table sbtest rename index k to idx k; 


有 具体 如 图 2-21 所 示 。 
从 图 2-21 可 以 看 到 ， 索 引 名 字 已 经 变更 。 


Qua MariaDB 10.1 并 不 支持 该 功能 。 


mysql» alter tab p es a test rename index k to idx k; 
Query OF, 0 rc n (0, 26 = 
Records: 0 J Warning 


mysql» show create table sbtestiG- 

xccl eoe 1, rop ke ke ok ke ee koe ee ok eee eo 
Table: sbtest 

Create Table: CREATE TABLE sbtest ( 


"id int(10) unsigned NOT NULL AUTO INCREMENT, 
"kk int(ül0) unsigned NOT NULL DEFA ET ig 

"c char(120) NOT NULL DEFAULT ''. 

“pad varcharí(60) NOT NULL DEFAULT '', 

PRIMARY KEY (id }, 

KEY na a 


] row ir m (D. O0 y 


图 2-21 修改 索引 名 字 


为 了 兼容 传统 的 SQL 语法 ，MySQL 5.7 版 本 支持 原生 的 JSON 格 式 ， 即 将 关系 型 数据 库 和 文档 型 NoSQL 数 据 库 集 于 一 身 ， 其 表 结 构 如 图 2-56 所 示 。 


mysql» select versioni); 


十 一 一 一 一 一 一 一 一 一 一 一 — 
| version() | 
十 一 一 一 一 一 一 一 一 一 一 一 — 
| 5. T. 10-1og | 
十 一 一 一 一 一 一 一 一 一 一 一 -十 


| row in set (0.12 sec) 


mysql» show create table tl 
二 
Table: tl 
Create Table: CREATE TABLE ti i 
id intill) NOT NULL, 
“context json DEFAULT NULL, 
PRIMARY KEY (Cid ) 
) ENGINE-InnoDB DEFAULT CHARSET-utf8 


| row in set (0.00 sec} 


ERROR: 
No query specified 
A2-56 tX 2544 
下 面 进行 测试 ， 插 入 JSON 格 式 数 据 ， 如 图 2-57 所 示 。 
获取 Key ( 键 ) name 和 age 的 Value ( 值 ) 的 方法 ， 如 图 2-58 所 示 。 
获取 全 部 Key (HE) 的 方法 如 图 2-59 所 示 。 
增加 一 个 Key-Value ( 键 - 值 ) 的 方法 如 图 2-60 所 示 。 
更 改 一 个 Key-Value ( 键 - 值 ) 的 方法 如 图 2-61 所 示 。 
删除 一 个 Key-Value ( 键 - 值 ) 的 方法 如 图 2-62 所 示 。 


mysql? 

mrsql> insert into tl valuesíl,' name”: 5K— ", "age" :21] 2, (2, "name": "2279", "agg" :34] 9: 
Query OF, 2 rows affected (0.09 sec) 

Records: 2 Duplicates: 0 Warnings: WU 


mysql? select * from tl; 


| 1 | [ age"! "M i "ae" | 
| n) | l'age": 34, "name" : "xp" | 


2 rows in set (0.00 sec} 


图 2-57 ”插入 JSON 格 式 数据 


mrsql> select id, JSON EXTRACT Ccontext,” $. name) name, JSON EXTRACT (context, $. age ) age from tl: 
十 一 一 一 于 一 一 一 一 一 一 一 一 一 = 十 
| id | name | age | 
a ----- + 


| 2 | "Em" | 34 


? rows in set (0.00 sec} 


图 2-58 获取 Key-Value ( 键 - 值 ) 


mysql> select id, json kevsicontext) from tl: 
| id | ison kevs(context) | 


| 1 | ['aze", “name 
oF oF A 
| 2 | [’age”, "name 


7 rows in set (0.00 sec) 


图 2-59 ”获取 全 部 Key (AE) 


mysql» select * from tl; 


| 1 | "age" 21. "name m "EZ 2 | 
| n) | "age": 34, "name": "xpi | 


2 rows in set (0.00 sec) 


mysql» update tl set context-]SON INSERT(context,' $. name, EA”, $. address , beijing ) where id = 2: 


Query OK, 1 row affected (0.09 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 


mysql> select * from tl; 


| 1 | lage” . 21, "rame M . “E= "l | 
| A | lage : 34, "name : "XE" "address": "beijing | | 


2 rows in set (0.00 sec) 


图 2-60 “增加 Key-Value (4& - 14) 


mysql> select * from tl: 


| 1 | "agg": DL "name": “oe — "1 | 
| 2 | age”: 34, "name": ÆW", "address": beijing” | 


2 rows in set (0.00 sec) 
mysql? update tl set context=JSON SET (context, $.name’, DEBE; ) where id = 1- 
Query OK, 1 row affected (0.01 sec) 


Rows matched: 1 Changed: 1 Warnings: U 


mysql? select * from tl: 


| 1 | "agg": 21, "name": “Taare E”) | 
| @ | age”: 34, "name": "ÆW", "address": beijing” | 


2 rows in set (0.00 sec) 


图 2-61 更 改 Key-Value ( 键 - 值 ) 


mysql> select * from tl; 


| 1 | "age": TL "name": "PESE T | 
| 2 | f'agze": 34, "name": “ÆN”, "address": "beijing | | 


2 rows in set (0.00 sec) 
mysql» update tl set context=]SON REMOVE (context, $.name ) where id = 1: 
Query OF, 1 row affected (0.00 sec) 


Rows matched: 1 Changed: 1 Warnings: 0 


mvsql> select * from tl; 


| 1 | faze”: 21] | 
| 2 | {*age”: 34, "name": “村 四” "address": “beijing” | 


? rows in set (0.00 sec) 


图 2-62 ”删除 Key-Value (4 - 44) 


2.5 ”支持 虚拟 列 (ARRS) 


2.5.1 MySQL 5.7 支 持 函 数 索引 


在 MySQL 5.6 中 ， 函 数 索引 是 无 法 用 到 索引 的 ， 下 面 的 SQL 在 执行 时 会 进行 全 表 扫 摘 : 


select * from tl where mod(mod_id, 10) = 1; 


但 在 MySQL 5.7 里 ， 按 如 下 方式 创建 表 ， 就 可 以 使 用 函数 索引 ， 其 表 结 构 如 图 2-72 所 示 。 


mysql» select versioni); 


十 一 一 一 一 一 一 一 一 一 一 一 -二 
| version | 
十 一 一 一 一 一 一 一 一 一 一 一 -十 
| 5.7.10-log | 
十 一 一 一 一 一 一 一 一 一 一 一 -十 


| row in set (0.00 sec) 


mnmysql^ show create table t2\G- 
a a i be i de pe ope ope obe opc opc opc ode ode ode de dee 
Table: tZ 
Create Table: CREATE TABLE t2 (4 
id intill! NOT NULL, 
mod id intíll) GENERATED ALWAYS AS ({ id 4% 10)) VIRTUAL, 
PRIMARY KEY (id ), 
KEY IX mod id ( mod id ? 
) ENGINE-InnoDB DEFAULT CHARSET-utf8 


] row in set (0.00 see) 


图 2-72 0 2E 
插入 数据 时 ， 注 意 虚 拟 列 的 值 要 为 default， 否 则 会 报错 ， 如 图 2-73 所 示 。 


mysql» insert into t2(id, mod id) values(55, bb): 
ERROR 3105 (HY000): The value specified for generated column mod id in table 'tZ is not allowed. 


mrsql > 
mysql» insert into t2(id, mod id) values(55, default): 
Query OK, 1 row affected (0.07 sec} 


mysql> select * from tZ; 


后 一 一 一 下 一 一 一 一 一 一 一 =} 
| id | mod id | 
二 一 一 一 二 一 一 一 -十 
| 55 | 5 | 
一 一 一 一 一 一 = 十 


] row in set (0.00 sec) 
图 2-73 ”插入 字段 值 必 须 为 default 
通过 explain 执 行 计划 器 可 以 看 到 ， 已 经 使 用 到 了 索引 ， 如 图 2-74 所 示 。 


mysql> explain select * from tZ where mod id-5; 


上 + 一 -十 -一 一 一 一 一 - 二 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 -十 一 -一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 — 于 一 一 一 一 — -十 一 -一 -一 -一 一 十 一 一 -一 一 一 一 - E 
| id | select_type | table | partitions | type | possible_keys | key | key len | ref | rows | filtered | Extra | 
— 二 + 一 一 一 一 一 二 一 一 一 一 一 一 一 一 -十 -一 一 于 一 一 一 一 一 一 一 一 一 一 一 一 一 Hannan 二 一 -一 -一 一- 二 一 -一 一- — -十 一- 一 -一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 E 
| 1 | SIMPLE | +2 | NULL | ref | IX mod id | IX mod id | 5 | const | 1 | 100.00 | Using index | 
4--——------------ ------- 十 一 一 一 一 -一 ------ —-------------- ----------- 十 一 一 一 一 -—------ 十 -一 -一 -—--------- —------------ 十 


1 row in set, 1 warning (0.00 sec) 


图 2-74 执行 计划 返回 结果 


通过 这 种 方式 即 可 实现 函数 索引 。 


还 在 为 慢 的 SQL 语句 而 烦恼 吗 ”MariaDB 10.1 和 Percona 5.6/5.7 解 决 了 这 个 问题 ， 这 个 补 本 是 由 Twitter 提供 的 。 不 过 ，MySQL5.7 不 支持 这 个 功能 。 


通过 max_statement time 参 数控 制 SQL 执 行 时 间 (单位 为 秒 ) ， 黔 认为 0， 不 限制 SQL 的 执行 时 间 ， 假 如 你 定义 了 超过 1 秒 的 慢 的 SQL 语句 ， 由 DB 自动 杀 死 ， 那 么 就 要 设置 : 


set global max statement time = 1; 
下 面 以 MariaDB 10.1 为 例 进行 说 明 ， 如 图 2-78 所 示 。 


WariaDB [test]> 


1 row in set (0.00 sec) 


MariaDB [test]? set max st: 
Query OK, Ü rows ak Facted 


MariaDB [test]> select count (distinct pad! from sbt 
ERROR 1969 (70100): Query execution was E 
MariaDB [test]> 

MariaDE [test]? update sbtest set k-l;: 


ERROR 136% (T0100) : Query execution was interrupted (max 
WariaDB [test]> 

MariaDB [test]? alter table sbtest add name char (10): 
ERROR 131i (T0100): Wuery emi on Was Interrupted 
MariaDB [test]? 


图 2-78 ”自动 终止 执行 慢 的 SQL 语 句 


由 图 2-78 可 以 看 到 ，DML/DDL 语 句 全 被 杀 死 。 


也 可 以 选择 用 percona-toolkit 工 具 集 的 pt-kill 命 令 来 实现 上 述 功 能 ， 它 将 从 show processlist 中 获取 满足 条 件 的 连接 杀 掉 ， 主 要 是 为 了 防止 执行 时 间 很 长 的 查询 ， 长 时 间 占 用 系统 资源 ， 而 对 线 上 业务 
造成 影响 。 


下 面 是 pt-kill 工 具 的 使 用 方法 。 
首先 ， 安 装 percona-toolkit 工 具 集 ， 命 令 如 下 : 


# wget 
https://www.percona.com/downloads/percona-toolkit/2.2.16/tarball/percona-toolkit-2.2.16.tar.gz 
# tar zxvf percona-toolkit-2.2.16.tar.gz 

# cd percona-toolkit-2.2.16 

# perl Makefile.PL 

# make 
# make install 


如 果 只 需要 把 select 耗 时 3 秒 以 上 的 SQL 全 部 杀 死 ， 并 打印 出 来 ， 可 采用 如 下 命令 : 


# /asr/local/bin/pt- kill -S /tmp/mysql . Sock -u root -p 123456 \ 


--match-info "^(select|SELECT|Select)" \ 

--busy-time 2 --victim all --interval 1 --kill-query --print --log \ 
/root/kill.txt  --daemonize 

其 中 的 参数 解释 如 下 : 


- -match-info: DML 语 名 匹配 ， 这 里 为 匹配 select|SELECT|Select 查 询 。 
- --busy-time: 定义 SQL 执行 时 间 ， 这 里 为 执行 时 间 大 于 等 于 2 秒 。 

- --intetval: 运行 检查 query 的 间隔 (49) 。 

---victim: 有 三 个 值 ， 分 别 为 oldest (Rid) 、al 和 all:but-oldest。 
oldest: 杀 掉 长 时 间 等 待 的 查询 ， 而 不 是 长 时 间 执 行 的 查询 。 


tal: 杀 掉 所 有 满足 条 件 的 查询 。 


- all-but-oldest: 杀 死 所 有 ， 但 最 长 的 保留 不 杀 死 。 
|—killquery: 只 杀 掉 连接 执行 的 语句 ， 但 是 线程 不 会 被 终止 。 
---kil: 杀 掉 连接 并 且 退 出 。 
 --print: 打印 满足 条 件 的 语句 。 

:-log: 将 慢 SQL 语 名 记录 在 日 志文 件 里 。 
- -daemonize: 放 在 后 台 以 守护 进程 的 形式 运行 。 


如 果 故 意 执行 一 条 慢 SQL 语 句 ， 则 pt-kill 会 自动 将 其 杀 死 ， 如 图 2-79 所 示 。 


mysql> select countidistinct pad) from sbtest; 
ERROR 1317 (T0100): Query execution was interrupted 


mreql> 


图 2-79 BE ERAT IR SSQLE 4) 


killtxt 会 把 慢 SQL 语 句 记 录 下 来 ， 如 图 2-80 所 示 。 


如 何 关闭 pt-kill 后 台 进 程 呢 ? 执行 命令 kill-9$(ps-eflgrep pt-killlgrep-v grep|awk'{print$2}'), 


综 上 所 述 ， 运 行 平 稳 的 数据 库 ， 如 果 遇 到 CPU 狂 毅 ， 到 80% 左 右 ， 那 一 定 是 慢 SQL 运 行 导 致 的 ，DBA 首 先 要 保证 的 是 : 数据 库 别 跑 挂 了 ， 所 以 要 把 那些 运行 慢 的 SQL 杀 死 并 记录 到 文件 里 ， 以 便 后 面 的 


排查 与 优化 。 


etos ter “Jy cat kill.txt 
# Z016-01-21T02:01:38 KILL QUERY 27 (Query 2 sec) select counti*) from sbtest 


# 2016-01-21T02:02:31 KILL QUERY 37 (Query 2 sec) select counti*) from sbtest 
& 2016-01-21T02:03:06 KILL QUERY 37 (Query 2 sec! select count(distinct pad) from sbtest 


[rootfmaster  ]& 


图 2-80 RK IEASQL 4) 


2.7 ”优化 器 改进 


2.7.1 针对 子 查询 select 采 用 半 连 接 优化 


MySQL 的 子 查询 一 直 以 来 以 性 能 差 著 称 ， 所 以 解决 的 方案 是 用 关联 (oin) 查询 代替 子 查询 。 子 查询 在 MySQL 里 ， 仪 看 成 一 个 功能 ， 生 产 环 境 下 很 少 使 用 。 但 如 今 在 MySQL 5.6/5.7 和 MariaDB 
10.0/10.1 版 本 里 ， 子 查询 终于 有 了 强劲 的 优化 ， 这 意味 着 不 改变 原 有 SQL 的 情况 下 ， 通 过 MySQL 内 部 的 优化 器 把 子 查询 改写 成 为 天 联 查询 。 


类 


通常 情况 下 ， 我 们 希望 由 内 到 外 ， 先 完成 内 表 里 的 查询 结果 ， 然 后 驱动 外 查询 的 表 ， 完 成 最 终 查 询 ， 但 是 MySQL 5.5 版 本 会 先 扫描 外 表 中 的 所 有 数据 ， 每 条 数据 将 会 传 到 内 表 中 与 之 关联 ， 如 果 外 表 很 


大 ， 那 么 性 能 上 将 会 很 差 。 
让 我 们 看 一 个 例子 ， 代 码 如 下 : 


Select * from Country where 
Continent-'Europe' and 
Country.Code in (select City.country 
from City 
where City.Population»1*1000*1000); 


在 MySQL 5.5 版 本 里 ， 首 先 执行 外 表 Country 把 符合 欧洲 国家 的 数据 过 滤 出 来 ， 然 后 将 每 个 符合 条 件 的 数据 都 与 内 表 City 进 行 一 次 select City.country from City where City.Population» 1*1000*1000 


查询 ， 故 而 性 能 低下 ， 如 图 2-101 所 示 。 


Country query 
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图 2-101 MySQL 5.5 子 查询 的 执行 过 程 
通过 半 连 接 (semijoin) 优化 后 ， 执 行 计划 器 是 这 样 工作 的 。 
首先 ， 执 行内 表 city， 把 符合 城市 人 口 数量 大 于 100 万 的 数据 过 滤 出 来 ， 外 表 只 需要 在 内 表 的 查询 结果 中 找到 匹配 的 记录 即 可 ， 这 样 大 大 提升 了 工作 效率 ， 如 图 2-102 所 示 。 


该 SQL 会 通过 内 部 优化 器 重 写 为 : 


select a.* from Country as a 
join (select City.country from City where City.Population>1*1000*1000) as b 
on a.Code = b.country 
where a.Continent-'Europe'; 


City Country 
[T E a 
a" — | output 
/ nm — 
Big cities | 
El — 
—=_ —— | 
` —1»BS LLL] in Europe 
— M: 
s n rs 
[1 —— 


图 2-102 MySQL 5.7 子 查询 的 执行 过 程 
需要 注意 的 是 ，MySQL 5.5 的 子 查询 执行 计划 是 将 in 重 写 为 exists， 如 图 2-103 所 示 。 


MySQL 5.6/5.7 和 MariaDB 10.0/10.1 的 子 查询 执行 计划 是 将 in/exists 重 写 为 join ， 如 图 2-104 所 示 。 


MySQL [test]? explain select * from sbtest where id in (select id from tl): 


站 pecie Se a SS —p————————À + Seen a Spee 一 
| id | select tvpe | table | type | possible_keys | key | key len | ref | rows | Extra | 
eo MEME = es 六 AR So is s eae E ONAR Se E =} 
| i | PRIMARY | sbtest | ALL | NULL | NULL | NULL | NULL | 5000071 | Using where | 
| 2 | DEPENDENT SUBQUERY | tl | unique subquery | PRIMARY | PRIMARY | 4 | func | 1 | Using index; Using where | 
EE 一 一 i i 一 一 E -j E =} 


2 rows in set (0.00 sec) 


MySQL [test]? explain select * from sbtest where exists (select * from tl where tl. id=sbtest. id): 


EE -十 一 一 一 一 一 一 一 = 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 二 一 一 一 一 一 一 一 一 = 二 一 一 一 一 一 一 一 一 一 一 = 二 一 一 一 一 一 一 一 一 Sp -十 
| id | select tvpe | table | type | possible_keys | key | key len | ref | rows | Extra | 
于 -=== -= 一 = Sf ip p p -一 = C -  - C : c c E + 
| 1 | PRIMARY | sbtest | ALL | NULL | NULL | NULL | NULL | 5000071 | Using where | 
| 2 | DEPENDENT SUBQUERY | tl | eq ref | PRIMARY | PRIMARY | 4 | test. sbtest.id | 1 | Using where; Using index | 
goce pee Mare pee m - mE ee Apeere E T ee a —+ 


2 rows in set (0.02 sec) 
MySQL [test]? select version); 


| version() | 


1 row in set (0.00 sec) 


图 2-103 ”将 in 重 写 为 exists 


MariaDB [test]? explain select * from sbtest where id in (select id from tl): 


十 一 一 一 一 一 E D E E = 二 E m E E —------------ —+ 
| id | select_type | table | type | possible kevs | key | key_len | ref | rows | Extra | 
p= r pe —p-————Á poen pee —pe—————— SSS T j =} 
| 1 | PRINARY | t1 | index | PRIMARY | PRIMARY | 4 | NULL | 10 | Using index | 
| 1 | PRINARY | sbtest | eq ref | PRIMARY | PRIMARY | 4 | test. tl. id | 1 | Using where 

二 一 一 一 一 一 下 一 一 一 一 一 一 一 一 一 一 一 下 一 -一 -一 一 ~ 下 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 -一 -一 -一 -一 一 -一 -十 一 -一 一 一- 一 下 一 -一 一 一 一 一 一 一 ~ 下 一 一 一 一 一 下 一 一 一 一 一 一 一 一 一 一 一 一 =} 


2 rows in set (0.01 sec) 


MariaDB [test]> explain select * from sbtest where exists (select * from tl where tl.id-sbtest.id): 


Pe ee 站 下 pr ÓÀ—— p p pn T p —+ 
| id | select_type | table | type | possible keys | key | key_len | ref | rows | Extra | 
a 一 一 下 一 一 一 一 一 E ntti 二 一 一 一 一 pr À—À = i -十 
| 1 | PRIMARY | t1 | index | PRIMARY | PRIMARY | 4 | NULL | 10 | Using index | 
| 1 | PRIMARY | sbtest | eq_ref | PRIMARY | PRIMARY | 4 | test. tl. id | 1 | Using where | 
= Se SSS SS Hp =p E =p = CE =} 


2 rows in set (0.00 sec) 


MariaDB [test]? explain select a.* from sbtest a join tl b on a.id-b.id; 


pee SSeS Ho E SSS T E T E T Sees =} 
| id | select type | table | type | possible_keys | key | key_len | ref | rows | Extra | 
+--—-- —------------ —+--—--- aa —------------—- E E E E —----- —----------—-- — 
| 1 | SIMPLE | b | index | PRIMARY | PRIMARY | 4 | NULL | 10 | Using index | 
| 1 | SIMPLE la | eq ref | PRIMARY | PRIMARY | 4 | test. b. id | 1 | Using where 

p e e E r e e =: Sa -L-——-—— pM — 


2 rows in set (0.00 sec) 


MariaDB [test]> select versioni: 


p -十 
| versioni) | 
pM =$ 
| 10. 0. 20-MariaDB-log | 
pM MÀ M = 十 


1 row in set (0.02 sec) 
图 2-104 ”将 in 重 写 为 join 


半 连 接 子 查询 优化 默认 开启 ， 可 以 通过 语句 show variables like'optimizer_switch\G; 来 查看 : 


mysql> show variables like 'optimizer switch'\G; 
Ckckckckckckckckckckckckckckckckckckckckckck ck ck kk HM" row 类 火炎 大 类 类 炎炎 类 大 类 炎炎 大火 大 炎炎 火炎 类 类 类 火炎 大 大 


Variable name: optimizer switch 
Value: index merge-on, index merge union-on, index merge sort union-on, index merge intersection-on, engine condition pushdown-on, index condition pushdown-on, mrr-on, mrr c 
1 row in set (0.00 sec) 


但 是 ， 半 连接 优化 只 是 针对 查询 的 ， 针 对 update/delete 的 性 能 仍旧 很 差 。 下 面 通 过 实验 来 验证 执行 语句 explain delete from sbtest where id in(select id from t1)， 从 图 2-105 中 可 以 看 到 半 连 接 优 
化 失效 了 ， 仍 旧 还 是 先 查 外 表 再 关联 内 表 。 


mysql> explain delete from sbtest where id in (select id from :1); 

 — — pem ' 

| id | select_type vartitions ssible_keys -y | ref ows | filtered | Extra 

十 -一 -二 一 -一 一 -一 -一 -一 -一 -一 -一 一 - 一 一 二 一 -一 -一 -一 -一 -一 -一 -一 -一 -一 一- 一 -一 
| 1 | DELETE | sbtest | NULL | NULL | 986400 | 100.00 | Using where | 
| 2 | DEPENDENT SUBQUERY | P | NULL ique_ y ; | 1 | 100.00 | Using where; Using index | 
———— 十 一 

2 rows in set (0.00 sec) 


mysql> select version(); 


1 row in sct (0.03 sec) 


MariaDB [test]? explain delete from sbtest where id in (select id from t1); 


PRIMARY | sbtest | ALL | NULL | NULL | NULL | 889247 | Using where 
DEPENDENT SUBQUERY | t1 | unique subquery | PRIMARY | PRIMARY | 4 | func | 1 | Using index; Using where | 


2 rows in set (0.02 sec) 


MariaDB [test]? select versionO: 


1 row in set (0.00 sec) 


K2-105 ” 半 连 接 优 化 失效 


因此 ， 在 生产 环境 中 ， 一 定 要 多 加 注意 ! 针对 update/delete 的 子 查询 仍 需 人 工 改写 为 关联 查询 。 


2.8” 半 同步 复制 改进 


2.8.1 ” 半 同 步 复 制 简介 


默认 情况 下 ，MySQL 5.5/5.6/5.7 和 MariaDB 10.0/10.1 的 复制 功能 是 异步 的 ， 异 步 复 制 可 以 提供 最 佳 的 性 能 ， 主 库 把 Binlog 日 志 发 送 给 从 库 ， 这 一 动作 就 结束 了 ， 并 不 会 验证 从 库 是 否 接收 完毕 ， 但 这 
同时 也 带 来 了 很 高 的 风险 ， 这 就 意味 着 当主 服务 器 或 从 服务 器 发 生 故障 时 ， 有 可 能 从 机 没有 接收 到 主机 发 送 过 来 的 Binlog 日 志 ， 会 造成 主 服 务 器 /从 服务 器 的 数据 不 一 致 ， 甚 至 在 恢复 时 会 造成 数据 丢失 。 


为 了 解决 上 述 问题 ，MySQL 5.5 引 入 了 一 种 半 同 步 复 制 (Semi Replication) 模式 ， 该 模式 可 以 确保 从 服务 器 接收 完 主 服 务 器 发 送 的 Binlog 日 志文 件 并 写 入 自己 的 中 继 日 志 (Relay Log) 里 ， 然 后 会 给 
主 服务 器 一 个 反馈 ， 告 诉 对 方 已 经 接收 完毕 ， 这 时 主 库 线程 才 返 回 给 当前 session 告 知 操作 完成 ， 如 图 2-140 所 示 。 当 出 现 超时 情况 时 ， 源 主 服 务 器 会 暂时 切换 到 异步 复制 模式 ， 直 到 至 少 有 一 台 设 置 为 半 同 
步 复 制 模 式 的 从 服务 器 及 时 收 到 信息 为 止 ( 见 图 2-140) 。 


应 用 程序 


六 同上 


MySQL 从 服务 器 


MySQL 主 服务 需 


半 同 步 复制 模式 


图 2-140 FR RRA 
简 言 之 ， 半 同步 复制 在 一 定 程度 上 可 保证 提交 的 事务 已 经 传 给 了 至 少 一 个 备 库 ， 因 此 ， 半 同步 复制 与 异步 复制 相 比 ， 进 一 步 提 高 了 数据 的 完整 性 。 


全 注意 半 同 步 复制 模式 必须 在 主 服务 器 和 从 服务 器 同时 启用 ， 否 则 主 服务 器 默认 使 用 异步 复制 模式 。 


29 GTID 复 制 改进 


2.9.1 GTID 复 制 慨 述 


主 从 切换 后 ， 在 传统 的 方式 里 ， 需 要 找到 binlog 和 POS 点 ， 然 后 执行 命令 change master to 指向 新 的 主 库 。 对 于 不 是 很 有 经 验 的 运 维 人 员 来 说 ， 往 往 会 找 错 ， 造 成 主 从 同步 复制 报错 ， 在 MySQL 5.6 版 
本 里 ， 无 须 再 找 binlog 和 POS 点 ， 只 需要 知道 master 的 IP、 端 口 、 账 号 和 密码 即 可 ， 因 为 同步 复制 是 自动 的 ，MySQL 会 通过 内 部 机 制 GTID (Global Transaction ID) 自动 找 点 同步 。 


GTID 复 制 的 名 词 解释 如 下 。 
- server. uuid: 服务 器 身份 ID。 在 第 一 次 启动 MySQL 时 ， 会 自动 生成 一 个 sefveft_uuid 并 写 入 数据 目录 下 的 auto.cnf 文 件 里 ， 官 方 不 建议 修改 。 并 且 setrvet_uuid 跟 GTID 有 密切 联系 。 


下 面 是 auto.cnf 文 件 的 内 容 : 


[root@mysql5 6 data]# pwd 
/usr/local/mysql/data 
[root@mysql5 6 data]# cat auto.cnf 
[auto] 
server-uuid-b0869d03-d4a9-11e1-a2ee-000c290a6b8f 


|GTID: 全 局 事务 标识 符 。 使 用 这 个 功能 时 ， 每 次 事务 提交 都 会 在 binlog 里 生成 一 个 唯一 的 标识 符 ， 它 由 UUID 和 事务 ID 组 成 。 首 次 提交 的 事务 ID 为 1， 第 二 次 为 2， 第 三 次 为 ?3， 依 次 类 推 。 


对 于 事物 ID， 查 看 binlog， 会 看 到 如 图 2-144 所 示 的 内 容 。 


[root@master binloz]# mysqlbinlog —vv mvsql-bin.! 8 | grep 好 NEXT | more 
mESESSION.GTID NEXT-  dlddl615-a241-11s5-b 087- -000c29e dd£b B: Mon 
@@SESSION. GTID NEXT- 'diddl&15-a241-11e5-b08T-000c29eddfb6:2" kl: 
GESESSION.GTID NEXT-  diddlB6l5-a24l-11e5-b08T-000c28eddfb5:3 fel: 
O@SESSION. GTID NEXT-  diddl6l15-a24l1-11e5-508T-000c289eddfb5:4 fel: 
GG SESSION. GTID NEXT- © dlddl6l5-a241-11e5-b08T-000c289e&ddfb5:5 fel: 
G@@SESSION. GTID NEXT- © dlddl615-a241—-lle5-bORT—-O00c29eddfbb:6 fel’: 
@@ SESSION. GTID NEXT-  dlddl615-az241-11e5-b08T-000c29eddfbB:T fe le’: 
G@@ SESSION. GTID NEXT- ` dlddl615-a241-11e5-b08T-000cZ9eddfb6:8 / | 
MG SESSION. STID NEXT-  dlddl615-a24l-l1l1e5-bü8T-000cZS9eddfb6:9 /tl 
@@SESSION. GTID NEXT- 'diddl&15-a241-11e5-b08T-000c29eddfb6:10 l; 
@@SESSION. GTID NEXT- '"diddl&15-a241-11e5-b08T-000c29eddfb6:11' /*l*/; 
BESESSION.GTID NEXT- ^ dlddl6 Wem em T -þ08T-000c29eddfb6:1 2 /#l+/: 
mESESSION.GTID NEXT- | dlddl615- 5-boST-O00c29eddfb6:13 /*!*/; 
GRSESSION.GTID NEXT-  dld4dl6 15-22 5-püsT-000cZSeddfbB:14 Atl: 
@@SESSION. GTID_NEXT= 'dlddl615-a241 _11e5-b087-000c2geddfbg:15" 证! "a 
ma ESSION.GTIID NEXT=  dlddl615-a: den -]D1se5-büs8T-üü0cz9ed zin 6:16 Pkl*/. 
GaSESSION.GTID NEXT- “AUTOMATIC /* ad ia d by mysqlbinlog */ fP*l*/: 


图 2-144 GTID 事 务 号 


开启 GTID 时 ，slave 进 行 同步 复制 的 时 候 ， 无 须 找到 binlog 日 志和 和 POS 点 ， 直 接 change master to master auto_position=1 即 可 ， 它 会 自动 找 点 同步 。 
GTID 的 工作 流程 如 下 。 
1) 在 master 上 一 个 事务 提交 ， 并 写 入 binlog 里 。 


2) binlog 日 志 发 送 到 slave，slave 接 收 完 并 写 入 中 继 日 志 里 ，slave 读 取 到 这 个 GTID， 并 设置 gtid_next 的 值 。 例 如 ， 


SET@@SESSION.GTID NEXT-'B0869D03-D4A9-11E1-A2EE-000C290A6B8F:3'; 


然后 告诉 slave 接 下 来 的 事务 必须 使 用 GTID， 并 写 入 它 自 己 的 binlog 里 。 
3) slave 检 查 并 确认 这 个 GTID 没 有 被 使 用 ， 如 果 没 有 被 使 用 ， 那 么 开始 执行 这 个 事务 并 写 入 它 自 己 的 binlog 里 。 
4) 由 于 gtid_next 的 值 不 为 空 ，slave 不 会 尝试 去 生成 一 个 新 的 gtid， 而 是 通过 主 从 同步 来 获取 GTID。 


如 何 设置 MySQL 5.6 GTID 方 式 的 主 从 同步 呢 ? 在 master 和 slave 上 ， 需 要 同时 在 my.cnf 文 件 中 加 入 以 下 内 容 : 


log-bin = mysql-bin 

binlog 1 Format = row 

log slave updates - 1 

gtid 1 mode = ON 

enforce gtid consistency = ON 


然后 ， 在 master 上 导出 : 


mysqldump -uroot -p123456 -q --single-transaction -R -E --triggers 
--default-character-set-utf8 --master-data-2 -B yourDB » ./yourDB.sql 


之 后 进行 指向 即 可 ， 如 下 所 示 : 


mysql> CHANGE MASTER TO 

> MASTER HOST = master-host, 

> MASTER PORT = mas! ter-port, 

> MASTER USER = repl-user, 

> MASTER PASSWORD = repl- password, 
ER AUTO POSITION = 1; 


> MASTE 


Qum 如 果 使 用 了 GTID， 就 不 能 再 使 用 传统 的 binlog 和 POS 方 式 。 


传统 的 change master to 模式 如 下 : 


CHANGE MASTER TO 
MASTER HOST-'master2.mycompany.com', 
MASTER USER='replication', 
MASTER PASSWORD-'bigs3cret', 
MASTER PORT=3306, 
MASTER LOG FILE-'master2-bin.001', 
MASTER LOG POS-4, 

MASTER CONNECT RETRY-10; 


E 


Ej p pd i Ed 


否则 会 报错 ， 如 图 2-145 所 示 。 
GTID 的 局 限 性 包含 以 下 几 方 面 。 
: GTID 同 步 复制 是 基于 事务 的 ， 所 以 MyISAM 表 不 支持 ， 这 可 能 导致 多 个 GTID 分 配给 同一 个 事务 。 


- 不 支持 CREATE TABLEhttp:/ /www.hzcoutse.com/resoutce/readBook?path— /openresources/teach_ebook/uncompressed/15847/OEBPS/Text/...SELECT## 4). A 79 iX 3& 6] T AE create table 和 insett 两 个 
事务 ， 并 且 ， 如 果 这 两 个 事务 被 分 配 了 同一 个 GTID ， 则 会 导致 insett 被 备 库 忽略 掉 ( 见 图 2-146) 。 


mysql> C 
-> MASTE T JG oP OS -4 ; 
ERROR 1776 (HY000): Parameters MASTER LOG FILE, MASTER LOG POS, RELAY LOG FILE and RELAY LOG POS cannot be set when MASTER AUTO POSITION is active. 
mysql» 
mysql> select version(): 


1 row in set (0.00 sec) 
图 2-145 不 支持 传统 的 change master to 模式 
mysql» create table hcy select * from tl; 
ERROR 1786 (HYOOD): Statement violates GTID consistency: CREATE TABLE ... SELECT. 
mysql? 
mysql? 


DBA 经 常会 遇 到 1032 (更 新 /删除 数据 找 不 到 ) 和 1062 错 误 (主键 冲突 ) ， 这 就 是 因为 从 库 宕 机 后 ，relay-log 是 以 文件 形式 写 盘 ， 没 有 事务 的 概念 。 


我 们 先 看 MySQL 5.6 的 relay-log.info 工 作 原 理 ， 如 图 2-152 所 示 。 参 数 relay_log_info_repository=FILE 默 认 是 保存 在 文件 里 的 。 
sq 线程 每 次 提交 一 个 事务 ， 就 会 记录 在 relay.info 文 件 里 。 假 如 在 刷 盘 那 一 刻 宕 机 ，relay-log 里 没有 记录 ， 那 么 从 库 重 启 mysql 进 程 后， 就 会 执行 两 遍 同样 的 SQL 语句 ， 造 成 同步 复制 报错 。 


再 来 看 看 把 relay-log.info 写 入 表 里 的 情况 ， 命 令 如 下 : 


alter table mysql.slave relay log info engine-innodb; 


relay log info_repository=TABLE 的 工作 原理 如 图 2-153 所 示 。 


START TRANSACTION; 
| -- Statement 1 


statement M 
COMMIT; 
-- Update replication into files 


Cn um È wW a b= 
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图 2-152 ”中 继 日 志保 存在 文件 里 


|! START TRANSACTION 
-- Statement 1 


-- Statement N 
-- Update replication inte 
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E 2-153 ”中 继 日 志保 存在 表 里 


这 样 sql 线 程 执 行 完 事务 后 ， 立 即 会 更 新 slave_relay log_info 表 ， 如 果 在 更 新 过 程 中 宕 机 ， 则 事务 会 回 滚 ，slave_relay log _info 表 并 不 会 记录 同步 的 点 ， 下 次 重新 同步 复制 时 ， 从 之 前 的 POS 点 再 次 执 


另外 ， 从 MySQL 5.5 或 MariaDB 10.0 版 本 开始 ， 增 加 了 relay log_recovery 参 数 ， 这 个 参数 的 作用 是 : 当 slave 从 库 宕 机 后 ， 假 如 relay-log 损 坏 ， 导 致 一 部 分 中 继 日 志 没 有 处 理 ， 则 自动 放弃 所 有 未 执行 
的 relay-log， 并 且 重 新 从 MASTER 上 获取 日 志 ， 这 样 就 保证 了 relay-log 的 完整 性 。 默 认 情况 下 该 功能 是 关闭 的 ， 将 relay log recovery 的 值 设 置 为 1 时 ， 可 在 slave 从 库 上 开启 该 功能 ， 建 议 开 局。 


2.11 MariaDB 10.0/10.1 从 库 骨 省 安全 恢复 


在 MariaDB 10.0.X 和 10.1.X 上 不 支持 relay log info_repository=TABLE 参 数 ， 官 网 建议 用 GTID 复 制 模式 代 蔡 传统 的 复制 模式 ， 传 统 的 复制 模式 是 不 支持 Slave Crash-Safe 的 ， 如 图 2-154 所 示 。 


[root@master mysql]# scripts/mysql install db --defaults-file-/etc/my.cnf -一 ser=mysql 

WARNING: The host 'master could not be looked up with resolveip. 

This probably means that your libc libraries are not 100 *« compatible 

with this binary MariaDB version. The MariaDB daemon, mysqld, should work 

normally with the exception that host name resolving will not work. 

This means that you should use IP addresses instead of hostnames 

when specifying MariaDB privileges ! 

Installing MariaDB/WySOL system tables in ' /data/mysql 

2015-08-24 : 140142845073248 [erint] relay-log-info-repository is MySQL 5.6 compatible option. Not used or needed in MariaDB. 
2015-08-24 140142845073248 te] . /bin/mysqld (mysqld 10.1.6-HariaDB-log) starting as process 11396... 
2015-08-24 140142845073248 te] InnoDB: Using mutexes to ref count buffer pool pages 

2015-08-24 140142845073248 [ InnoDB: The InnoDB memory heap is disabled 


2015-08-24 
2015-08-24 
2015-08-24 


140142845073248 te] InnoDB: Memory barrier is not used 
140142845073248 InnoDB: Compressed tables use zlib 1.2.3 
1401 42845073248 [ InnoDB: Using Linux native AIO 


8: 
8 
8 
8: 
2015-08-24 8:14: 140142845073248 [ InnoDB: Mutexes and rw locks use GCC atomic builtins 
8: 
8 
8 


图 2-154  MariaDB A X 4&relay log info repository- TABLE 参数 


其 工作 原理 同 MySQL 5.6/5.7 的 relay log info _repository=TABLE 工 作 原理 ， 这 里 不 再 叙述 。 


2.12 slave 从 库 多 线程 复制 


MySQL 5.5 版 本 里 是 单 进程 串 行 复 制 ， 通 过 sql_ thread 线程 来 恢复 主 库 推 送 过 来 的 binlog， 这 样 会 产生 一 个 问题 ， 主 库 上 有 大 量 的 写 操作 ， 从 库 就 有 可 能 出 现 延 迟 。 


MySQL 5.6 的 slave 从 库 多 线程 复制 是 基于 库 (schema) 的 ， 设 置 slave_parallel_workers 参 数 ， 开 启 基于 库 的 多 线程 复制 。 默 认 是 0， 不 开启 ， 最 大 并 发 数 为 1024 个 线程 。 如 果 用 户 的 MySQL 数 据 库 实 
例 中 存在 多 个 库 ， 对 于 slave 从 库 复 制 的 速度 可 以 有 比较 大 的 帮助 ， 因 为 不 同 的 库 slave 在 执行 并 行 复 制 时 ， 互 相 没 有 关联 ， 数 据 不 会 不 一 致 。2 个 库 slave 就 有 2 个 IO/SQL 线 程 ，3 个 库 slave 就 有 2 个 IO/SQL 线 
程 ， 依 次 类 推 。 


MySQL 5.7 的 slave 从 库 多 线程 复制 是 基于 表 的 ， 实 现 的 原理 基于 binlog 组 提交 ， 简 单 来 说 ， 多 个 并 发 提交 的 事务 加 入 一 个 队列 里 ， 对 这 个 队列 里 的 事务 ， 利 用 一 次 |/O 合 并 提交 。 如 果 主 库 上 1 秒 内 有 10 
个 事务 ， 那 么 合并 一 个 MO 提 交 一 次 ， 并 在 binlog 里 增加 一 个 last committed 标 记 (MariaDB 的 binlog 标 记 是 cid) ， 当 last committed (cid) 的 值 一 样 时 ，slave 就 可 以 进行 并 行 复制 ， 通 过 设置 多 个 
sql thread 线程 将 这 10 个 事务 并 行 恢复 ， 如 图 2-155 所 示 。 


REIR p. V erep mec committed | more 

; o 21 X | Anonymous_GTID 
end log pos 1 3 Anonymous GTID 
end log pos “465% : xd db: Ánonymous GTID 
end log pos 9c THE: Ànonymous GTID 
end log pos 5103 C ogai Anonymous_GTID 
end log pos L B Anonymous_GTID 
end log pos 7540 C üÜxflb5babT3 Ánonymnus GTID 
end log pas L j e Ánonymous GTID 
end log pos b Ànonymous GTID 
end log pos SD] C [] 5 Anonymous GII 
end log pos 12421 CR i B Ànonymous GTID 
end log pos 13642 ls Ánonymous GTID 
end log pos le LR c Ànonymous GTID 
end log pos 16085 i HTU i Anonymous GTID 
end log pos » LR Üxebdffefb Ànonymous GTID 
end log pos le j qalda Anonymous_GTID 
end log pos Cod ÜxSabcüZaz Ánonymous GTID 
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图 2-155 binlog Y. 34 7»last committed 4f i6 


上 述 last committed 为 0 的 事务 有 10 人 个， 表示 组 提交 时 提交 了 10 个 事务 ， 假 如 设置 slave_parallel workers=12 (并 行 复制 线程 数 ， 根 据 CPU 核 数 设 置 ) ， 那 么 这 10 个 事务 在 slave 从 库 上 通过 12 个 线程 
复 


通过 设置 slave-parallel-type=LOGICAL CLOCK (基于 表 的 组 提交 并 行 复制 ) ， 默 认 是 slave-parallel-type=DATABASE (基于 库 的 并 行 复制 ) 。 


MariaDB 10.0/10.1 多 线程 复制 的 实现 原理 同 MySQL 5.7 的 ， 不 同 的 是 在 binlog 里 增加 了 一 个 cid 标 记 ， 如 图 2-156 所 示 。 


-- root&master:/data/logs 

-rw-rw----. 1 mysql mysql 336 9H 21 13:38 mysql-bin. index 

[root@master logs]# 

[root@master logs]# mysqlbinlog -vv mysql-bin. 000019 | grep GTID | more 

#150904 10:48:5 Jd Ded end Las mas 286 GTID 0-128-126343[c 
#1004 lü0:48:5 id 128 end log pos 1056 GIID ü-lZzs5-l1263544|c 

FIO lü0:48:5 id nd log pos 1505 GIID ü-l1Z28-1256545|c 
FIbSOS04 10:48:5 id nd log pos 2530 GIID ü-1285-1Z2563545|c 
FIBOS04 ]ü0:485:5 id nd log pos 326s GIID ü-lZ8-125534T|c 
FIS0904 10:485:5 id nd log pos 33T* GIID ü-l1Z8-125548|c 
gRlb5ügüd lü0:48:5 id nd log pos 4535 GIID ü-l1Z8-1256543|c 
HLEO0S04 l10:d48:Bb id nd log pos b54dlé GTID 

FIBOS04 ]ü0:485:5 id nd log pos 613€ GIID ü-lZ8-12555 

ml150304 10:485:b5 id nd log pos beoi GIID ü-l1Z8-12535Z|c 
gRl5ügüd lü0:48:5 id nd log pos T5T3 GIID ü-l1Z8-125353 cid=ł96 
FISOS04 10:48:5 id nd log pos 8300 GTI : cld-486 
FIBOS04 10:48:5 id nd log pos 902z GIID ü-1Z8-12635b5 cid=446 
FIS0904 lü0:45:b id nd logz pos 9743 GIID 0-128-125355 trans 
ml50304 l10:485:b5 id nd log pos 10465 GIID ü-128-125357T trans 
#150904 Iü0:48:5 id nd log pos 11l85 GIID ü-128-126558 cid-68z 
glb5üsná l0:48:b5 id nd log pos 11906 GIID ü-128-1256353 cid-b585z 
ml50304 10:485:b id nd log pos 14633 GIID ü-l1Z8-125360 cid-Tl1Z 
ml150304 l10:485:b5 id nd log pos lasbe GIID ü-128-125361 cid-T1Z 
#150904 Iü0:45:5 id nd log pos 14077 GIID ü-l128-125362 cid-T51 
FIORE lü0:48:5 id nd log pos 14800 GIID ü-lZ8-125355 cid-T51l 
ml50304 10:485:b5 id nd log pos 15523 GIID ü-l1Z8-125354 cid-T51l 
#1004 lü0:48:5 id nd log pos 16246 GIID ü-128-12565565 cid-8522 
&l50304 10:48:5 id 

&l50304 10:48:5 id 
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上 述 cid 为 486 的 事务 有 10 个 ， 表 示 组 提交 时 提交 了 10 个 事务 ， 假 如 设置 slave_parallel threads- 12 (并 行 复制 线程 数 ， 根 据 CPU 核 数 设 置 ) ， 那 么 这 10 个 事务 在 slave 从 库 上 通过 12 个 线程 进行 恢复 。 


官方 的 性 能 测试 如 图 2-157 所 示 。 


Parallel Slave Replication 


MariaDB 10 solves a long lasting replication challenge that even exists in MySQL 5.8. Until now, with enough writes 


(INSERT/UPDATE) happening on a master the slaves would not be able to keep up at the same pace and the would 


lag behind. 


With the parallel slave feature in MariaDB 10 this challenge 1s now gone. The slaves will adapt to the speed of the 


master and apply binlog events in parallel. Transactions will be applied in parallel if they were excuted in parallel on 


the master. 


Unlike MySQL 5.6, the transactions can concerm the same database or even the same table. 


sysbench OLTP single database slave tps relative to master 
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图 2-157 单线 程 和 多 线程 复制 的 性 能 对 比 


从 图 2-157 中 可 以 看 出 ， 随 着 并 发 线程 数 的 增加 ，slave 从 库 的 恢复 速度 已 经 接近 master 主 库 的 。 


2.13 slave 支 持 多 源 复 制 


在 MySQL 5.7 或 MariaDB 10.0/10.1 版 本 里 ， 一 个 从 库 可 以 支持 多 个 主 库 ， 如 图 2-158 所 示 。 


MySQL 
MarlaDB default 
S MarlaDB tuned 


Masterl| |Master2| |Master3| |Master4 


图 2-158 多 源 复制 架构 


多 源 复制 架构 的 适用 场景 : 实现 数据 分 析 部 门 的 需求 ， 将 多 个 系统 的 数据 汇聚 到 一 台 服 务 器 上 进行 查询 。 


1.MariaDB 10.0/10.1 多 源 复 制 搭建 


1) 通过 如 下 命令 创建 通道 ， 命 令 如 下 。 


mysql > SET @@default_ master connection = ${connect name]; 


Quse ${fconnect_name} 为 自 定 义 连接 名 字 。 


2) 建立 同步 复制 ， 命 令 如 下 : 


mysql > CHANGE MASTER ${connect name] TO 

MASTER HOST-'192.168.1.10', MASTER USER-'repl', MASTER PA 
SSWORD-'repl', MASTER PORT-3306, MASTER LOG FILE-'mysql- 
bin.000001', MASTER LOG POS-4, MASTER CONNECT RETRY-1 

0; 


3) 启动 多 源 复制 ， 命 令 如 下 : 


mysql > START SLAVE ${connect name]; 
mysql > START ALL SLAVES; 


4) 停止 多 源 复制 ， 命 令 如 下 : 


mysql > STOP SLAVE ${connect name]; 
mysql > STOP ALL SLAVES; 


5) 查看 状态 ， 命 令 如 下 : 


mysql > SHOW SLAVE ${connect name] STATUS; 
mysql > SHOW ALL SLAVES STATUS; 


mysql > RESET SLAVE ${connect name] ALL; 


7) 刷新 Relay logs， 命 令 如 下 : 


mysql > FLUSH RELAY LOGS ${connect_ name}; 


2.MySQL 5.7 多 源 复制 搭建 


首先 ， 从 服务 器 上 把 master.info 和 relay.info 设 置 存放 在 表 里 ， 把 如 下 参数 加 入 my.cnf 里 : 


master info repository = 'TABLE' 
relay log info repository - 'TABLE 


否则 在 执行 CHANGE MASTER TO 时 会 报错 : 


mysql» CHANGE MASTER TO 
MASTER HOST-'192.168.17.128', MASTER USER-'repl', MASTER PASSWORD-'repl', MASTER PORT=3306, MASTER LOG FII 
ERROR 3077 (HY000): To have multiple channels, repository cannot be of type 

FILE; Please check the repository configuration and convert them to TABLE. 


E-'mysql-bin.000001', MASTER LOG POS-4 FOR CHANNEL 'master-1'; 


下 面 开 始 MySQL 5.7 多 源 复制 搭建 。 


1) 建立 同步 复制 ， 命 令 如 下 : 


mysql > CHANGE MASTER TO 

MASTER HOST-'192.168.17.128', MASTER USER-'repl', MASTER PASSWORD-'repl', MASTER PORT=3306, MASTER LOG FILE-'mysql-bin.000001', MASTER LOG POS-4 FOR CHANNEL 'master-1'; 
mysql » CHANGE MASTER TO 7 i 7 uu mE 

MASTER HOST-'192.168.17.129', MASTER USER-'repl', MASTER PASSWORD-'repl', MASTER PORT-3306, MASTER LOG FILE-'mysql-bin.000001', MASTER LOG POS-4 FOR CHANNEL 'master-2'; 


2) 启动 多 源 复制 ， 命 令 如 下 : 


mysql > START SLAV 
mysql > START SLAVI 


Lu 


FOR CHANNEL 'master-1'; 
FOR CHANNEL 'master-2'; 


Lu 


3) 停止 多 源 复制 ， 命 令 如 下 : 


FOR CHANNEL 'master-1'; 


mysql > STOP SLAVI 


Ld GI 


mysql > STOP SLAVE FOR CHANNEL 'master-2'; 

4) 查看 状态 ， 命 令 如 下 : 

mysql > SHOW SLAVES STATUS FOR CHANNEL 'master-1'; 
mysql » SHOW SLAVES STATUS FOR CHANNEL 'master-2'; 
5) 清空 同步 信息 和 日 志 ， 命 令 如 下 

mysql > RESET SLAVE FOR CHANNEL 'master-1'; 

mysql > RESET SLAVE FOR CHANNEL 'master-2'; 


6) 刷新 Relay logs， 命 令 如 下 : 


'master-1'; 
'master-2'; 


mysql > FLUSH RELAY LOGS FOR CHANNEL 
mysql > FLUSH RELAY LOGS FOR CHANNEL 


2.14 MySQL 5.7 设 置 同步 复制 过 滤 不 用 重 局 mysql 服 务 进程 


在 MySQL 5.5/5.6 版 本 里 ， 设 置 同步 复制 过 滤 ， 例 如 ， 设 置 忽略 掉 test 库 的 t2 表 ， 你 需要 在 my.cnf 配 置 文件 里 增加 : 


replicate-ignore-table-test.t2 


必须 重启 mysql 服 务 进程 才能 生效 。 


在 MySQL 5.7 里 ， 通 过 一 个 新 的 命令 ， 可 以 支持 在 线 动态 修改 ， 而 无 须 重启 mysql 进 程 就 生效 。 


1 五 ~ 


mA. 

mysql»CHANGE REPLICATION FILTER REPLICATE DO DB= (dbl, db2); 
mysql»CHANGE REPLICATION FILTER REPLICATE IGNORE DB= (dbl, db2); 
mysql»CHANGE REPLICATION FILTER REPLICATE DO TABLE- (dbl.t1); 
mysql»CHANGE REPLICATION FILTER na 

REPLICATE IGNORE TABLE- (db2.t2); 

mysql»CHANGE REPLICATION FILTER 

REPLICATE WILD DO TABLE=('db.t%'); 

mysql»CHANGE REPLICATION FILTER 

REPLICATE WILD IGNORE TABLE=('db%.a%"'); 

mysql»CHANGE REPLICATION FILTER 

REPLICATE REWRITE DB-((from db, to db)); 


通过 在 线 执行 CHANGE REPLICATION FILTER REPLICATE IGNORE TABLE= (test.t2，test.t3); 就 可 以 忽略 同步 复制 的 表 ， 如 图 2-159 所 示 。 


MySQL [testl» CHANGE REPLICATION FILTER REPLICATE IGNORE TABLE-(test. t2, test. t3) ; 
Query 


MySQL [test]> start slave; 
Query OK, 0 rows affected (0.02 sec) 


MySQL [test]> show slave status\G- 
Se Oe ee Se le oe ae oe ake a lc oe oe oe oe a a oe oc] 了 Ww ec ae le oe alee ee oe ae eo oe eo oe ee oe oe 
Slave IO State: Waiting for master to send event 
Master Host: 192. 168.17. 128 
Master User: repl 
Master Port: 3316 
Connect Retry: 60 
Master Log File: mysql-bin. 000014 
Read Master Log Pos: 2335 
Relay Log File: ubuntu2-Telay-bin. 000014 
Relay Log Pos: 464 
Relay Master Log File: mysal-bin. 000014 
slave IO Running: 
Slave SQL Running: 
Replicate_Do_DB: 
Replicate Ignore DB: 
Replicate Do Table: 
Replicate Ignore Table: test. t3, test. t2 
Replicate Wild Do lable: 


Replicate Wild lanore Table: 


图 2-159 ”在线 设置 不 同步 的 表 


增强 了 易 用 性 ， 方 便 了 不 少 。MariaDB10.1 并 不 提供 此 功能 。 


MariaDB 最 大 的 改善 是 在 server 服 务 层 上 ，lInnoDB 存 储 引 警 层 是 集成 的 Percona 的 XtraDB， 在 5.7 版 本 以 前 ，MariaDB 在 功能 上 和 性 能 上 确实 要 领先 甲骨 文 My9QL， 但 随 着 MySQL 5.7 版 本 的 GA 出 
现 ， 这 种 差距 并 没有 显著 的 拉 大 ， 相 反 MySQL 5.7 在 server 服 务 层 上 的 增强 ， 并 且 在 InnoDB 引 警 层 上 的 改善 确实 让 人 眼前 一 亮 ， 并 且 截 止 笔 者 截稿 前 ，Percona 还 未 发 布 5.7 版 本 。 


在 这 一 章 里 ， 将 会 针对 笔者 在 MySQL 服 务 器 管理 工作 中 所 遇 到 的 一 些 常见 故障 进行 汇总 ， 同 时 还 会 针对 这 些 故障 提供 一 些 分 析 思 路 和 解决 方案 ， 和 希望 能 对 大 家 有 一 定 的 借鉴 作用 。 作 为 故障 预警 ， 应 该 
尽量 做 到 把 问题 扼杀 在 摇篮 中 ， 当 出 现 问题 时 及 时 处 理 ， 不 要 等 到 服务 器 宕 机 后 ， 再 充当 “救火 队员 ”， 虽 然 故 障 解决 了 ， 但 投诉 量 也 更 多 了 : 用 户 访问 不 了 网 站 、 修 复 的 时 间 太 慢 ， 类 似 的 问题 总 出 现 
等 。 所 以 应 该 有 一 套 监控 流程 ， 当 出 现 报警 阀 值 时 ， 马 上 去 解决 问题 ， 把 风险 降 到 最 低 。 


影响 MySQL InnoDB3 引 擎 性 能 的 最 主要 因素 就 是 磁盘 |/O， 目 前 磁盘 都 是 机 械 方 式 运 作 的 ， 主 要 体现 在 读 写 前 寻找 磁道 的 过 程 中 。 磁 盘 自 带 的 读 写 缓存 大 小 ， 对 于 磁盘 的 读 写 速度 至 关 重 要 。 读 写 速 度 
快 的 磁盘 ， 通 常 都 带 有 较 大 的 读 写 缓存 。 磁 盘 的 寻 道 过 程 是 机 械 方式 ， 决 定 了 其 随机 读 写 速 度 将 明显 低 于 顺序 读 写 。 在 多 进程 或 多 线程 并 发 读 取 磁盘 的 情况 下 ， 每 次 执行 读 写 操作 ， 磁 道 可 能 存在 较 大 的 偏 
移 ， 磁 道 寻 址 时 间 加 大 ， 将 会 导致 磁盘 /O 性 能 急剧 下 降 。 


在 第 1 章 介绍 的 新 特性 来 看 ， 几 乎 都 是 围绕 着 如 何 充分 利用 内 存 ， 如 何 减 少 磁盘 MO 来 展开 的 ， 例 如 ，innodb io_capacity 参 数 ， 可 以 加 大 每 秒 刷新 脏 页 的 数量 。 因 此 在 单 块 磁盘 遇 到 了 IO 瓶颈 时 ， 可 
以 把 磁盘 升级 为 RAID 或 SSD 固 体 硬 盘 来 提升 性 能 ，SSD 固 态 硬 盘 的 特点 是 : 不 用 磁头 读 取 数据 ， 寻 道 时间 几 乎 为 0， 快 速 的 随机 读 写 ， 延 迟 极 小 ， 当 然 价格 也 很 昂贵 。 目 前 在 生产 环境 中 主要 采用 RAID10、 
RAID5， 对 于 数据 读 写 操作 频繁 的 表 或 数据 库 ， 可 以 适当 采用 将 数据 分 级 存储 在 SSD 固 态 电子 硬盘 中 的 方式 ， 速 度 会 得 到 较 大 提升 ! 


影响 MySQL InnoDB 引 擎 性 能 的 另 一 个 因素 就 是 内 存 ，InnoDB3 引 擎 在 设计 之 初 就 是 考虑 用 于 大 型 、 高 负 和 谷 、 高 并 发 生产 环境 的 ， 因 此 内 存 的 大 小 直接 有 反映 了 数据 库 的 性 能 好 坏 。 它 在 内 存 中 开辟 一 个 
Buffer_Pool 缓 冲 池 ， 然 后 把 数据 页 和 索引 页 都 放 在 内 存 缓冲 池 中 读 写 ， 因 为 在 内 存 中 的 读 写 要 比 在 磁盘 里 快 得 多 ，InnoDB 设 计 之 初 就 考虑 到 了 这 个 问题 。 


在 Buffer_Pool 缓 冲 池 中， 涉及 的 参数 为 innodb_buffer_pool_size， 它 是 InnoDB 引 擎 中 最 重要 的 参数 之 一 ， 对 InnoDB 的 性 能 有 决定 性 的 影响 。 默 认 的 设置 只 有 8 MB， 使 用 默认 值 时 InnoDB 的 性 能 很 
差 ， 远 远 不 能 满足 生产 的 需求 。 在 只 有 lnnoDB 存 储 引擎 的 数据 库 服务 器 上 面 ， 可 以 将 其 设置 为 60%~80% 的 内 存 。 如 果 你 有 足够 的 内 存 ， 可 以 将 数据 量 全 部 放 入 内 存 ， 这 时 才能 达到 最 佳 性 能 。 


上 面 两 个 因素 是 从 硬件 角度 上 看 的 ， 也 就 是 说 因为 业务 的 增长 ， 致 使 硬件 遇 到 了 洽 须 ， 而 另 一 种 常见 的 情况 是 ， 大 量 的 慢 SQL 是 导致 性 能 低下 的 首要 “元 凶 ”， 在 这 种 情况 下 ， 优 化 慢 SQL 是 关键 ,在 
上 线 前 ， 应 有 专门 的 DBA 来 审核 开发 写 的 SQL 语句 ， 通 过 这 样 的 审核 ， 可 避免 线 上 遇 到 问题 。 优 化 一 条 SQL 语句 在 某 种 情况 下 ， 比 增添 1 条 内 存 管用 得 多 。 例 如 : 


SELECT * FROM t WHERE id >='10' and id <='30'; 
这 条 语句 乍 一 看 没什么 问题 ， 可 运行 后 马上 就 记录 在 慢 日 志 里 了 ， 这 是 怎么 回 事 ”细心 的 读者 可 能 会 发 现 id 是 int 数 值 整 型 ， 由 于 加 上 了 引号 (") ， 转 化 为 字符 型 ， 于 是 造成 了 不 能 使 用 索引 。 可 见 ， 审 
核 SQL 语 句 是 个 很 重要 的 工作 。 


而 如 何 分 辨 是 硬件 性 能 上 遇 到 了 瓶颈 ， 还 是 SQL 自身 的 问题 ”这 个 就 要 通过 日 常 的 监控 来 确定 了 ， 比 如 ， 每 天 早上 发 一 封 慢 日 志 邮 件 来 查看 SQL 的 情况 ， 自 然 就 对 业务 的 SQL 较为 熟悉 ， 再 对 比 最 近 二 到 
三 天 内 邮件 上 的 慢 sSQL， 这 样 很 容易 找 出 存在 的 问题 。 假 设 某 个 SQL 在 昨天 慢 日 志 里 没有 出 现 ， 而 在 今天 却 出 现 了 ， 那 么 尝试 着 在 备 机 上 运行 下 ， 如 果 很 快 就 得 到 了 执行 结果 ， 那 么 就 不 是 SQL 的 问题 ， 而 是 
业务 增长 造成 的 硬件 瓶颈 。 进 一 步 可 以 用 系统 命令 来 分 析 ， 关 于 分 析 细 节 将 会 在 后 面 章节 中 具体 介绍 。 


3.2 ”系统 性 能 评估 标准 


在 服务 器 运 维 工作 中 ， 性 能 调 优 是 一 项 富有 挑战 性 的 工作 ， 它 需要 对 硬件 、 操 作 系 统 和 应 用 有 非常 深入 的 了 解 。 对 于 MySQL DBA 来 说 ， 系 统 性 能 的 实时 检测 和 评估 是 其 需要 长 期 面 对 的 问题 ， 包 括 上 
线 前 各 方面 的 性 能 测试 及 上 线 后 整体 性 能 评估 ， 以 及 随时 掌握 系统 的 运行 状态 是 否 健 康 等 ， 对 于 数据 库 服 务 器 而 言 这 些 工作 非常 重要 。 本 节 将 对 这 方面 的 知识 进行 比较 全 面 的 介绍 。 


在 运 维 工 作 中 常用 到 的 性 能 分 析 工 具 包 括 : vmstat、sar、iostat、netstat、free、ps、top、mpstat 以 及 第 三 方 开 发 的 工具 ， 如 dstat、collect| 及 淘宝 的 开源 监控 项 目 Tsar 等 。 熟 悉 这 些 工具 能 让 你 清 
楚 当 前 系统 的 运行 情况 ， 帮 助 你 找 出 影响 系统 性 能 的 原因 。 本 书 主要 针对 由 第 三 方 开发 并 开源 的 工具 来 进行 介绍 ， 书 中 所 有 的 操作 环境 都 是 CenOS(RHEL) 平 台 。 


3.3 ”故障 与 处 理 


3.3.1 ”连接 数 过 多 导 任 程 序 连 接 报 错 的 原因 


连接 数 是 直接 反应 数据 库 性 能 好 坏 的 关键 指标 ， 连 接 数 过 多 ， 很 可 能 有 多 种 原因 ， 比 如 ， 被 一 条 SQL 查询 给 堵 死 了 ， 造 成 了 后 面 的 DML 操 作 等 待 ， 又 比如 ， 增 、 删 、 改 、 查 操作 很 频繁 ， 磁 盘 I/O 遇 到 
SHRM, SHEUGEARBEESUUBJICKST. 


也 许 有 人 会 问 ， 出 现 了 too many connections， 直 接 增 大 max_connections 值 就 行 了 吧 ? 其 实 ， 这 得 看 情况 ， 如 果 你 没有 设置 这 个 参数 ， 那 么 将 其 设置 为 900~ 1000， 在 大 多 数 场合 就 可 以 了 ， 但 如 果 
是 想 一 直 增 大 (比如 增 大 到 10000) ， 那 么 这 就 是 治标 不 治本 了 ， 因 为 连接 数 增 大 ， 会 导致 每 个 连接 所 占用 的 内 存 也 增加 ， 这 样 一 来 ， 机 器 就 很 容易 因 内 存 不 足 而 死机 ， 所 以 我 们 得 找到 引起 连接 数 升 高 的 
本 质 原因 。 


在 正常 情况 下 ，MySQL 处 理 完 一 条 请 求 后 ， 会 根据 wait timeout 值 来 释放 连接 (参数 合 义 : 服务 器 关闭 非 交互 连接 之 前 等 待 活动 的 秒 数 ) ， 一 般 设置 为 100 秒 即 可 ， 如 果 你 没有 设置 采用 默认 的 28800 
秒 ， 那 么 客户 端 在 连接 到 MySQL server 处 理 完 相应 的 操作 后 ， 要 等 到 28800 秒 以 后 才 会 释放 内 存 ， 如 果 你 的 MySQL server 有 大 量 的 闲置 连接 ， 不 仅 会 白白 消耗 内 存 ， 而 且 如 果 连 接 一 直 在 累加 而 不 断 开 ， 


最 终 肯定 会 达到 MySQL Server 的 连接 上 限 数 ， 这 会 报 'too many connections 的 错误 。 


下 面 来 看 一 个 因 重 局 服务 器 导致 数据 库 连 接 数 过 多 的 经 典 案例 。 之 前 我 们 用 的 是 共享 表 空间 ， 版 本 是 V5.1， 由 于 运行 时 间 很 长 ， 产 生 了 很 多 的 碎片 ， 导 致 jbdata 文 件 变 得 很 大 ， 所 以 我 们 就 用 导出 数据 
和 然后 再 导入 ， 并 且 重 建 ibdata 的 方式 来 释放 碎片 。InnoDB 分 为 共享 和 独立 表 空 间 。alter table TableName engine=innodb 通 过 这 条 命令 可 以 回收 表 空 间 整理 碎片 。 但 因 是 共享 表 空间 ， 不 是 独立 表 空 
间 ， 这 样 操作 可 以 回收 数据 空间 ， 而 不 是 磁盘 空间 。 


这 里 以 书柜 的 例子 来 解释 整理 表 空 间 碎片 。 书 柜上 的 书 摆 放 的 很 凌乱 ， 此 时 你 把 书 都 整理 好 了 ， 缩 小 了 它们 在 书柜 里 的 位 置 ， 但 书柜 还 是 那个 尺寸 ， 不 会 因为 把 书 弄 整 齐 了 ， 书 柜 也 就 缩小 了 。 而 独立 
表 空间 是 : 有 多 少 书 就 放 多 大 尺寸 的 书柜 里 。 它 既 可 以 回收 数据 空间 ， 也 可 以 回收 磁盘 空间 。 


整理 完 碎片 重启 服务 器 后 ， 在 早 高 峰 期 用 户 登录 时 ， 连 接 数 满 了 ， 导 致 用 户 登 录 时 一 直 等 待 ， 此 时 数据 库 已 经 处 于 无 响应 状态 ， 如 图 3-4 和 0 图 3-5 所 示 。 
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图 3-4 连接 数 


经 过 分 析 ， 发 现 早 高 峰 连接 数 升 高 是 这 样 引起 的 : 由 于 业务 很 繁忙 ， 数 据 库 并 发 高 (每 秒 读 操 作 3000 个 ， 写 操作 500 个 ) ， 当 数据 库 重 启 后 ， 就 会 面临 一 个 问题 ， 如 何 将 之 前 频繁 访问 的 数据 重新 加 载 
回 buffer 中 ， 也 就 是 说 ， 如 何 对 InnoDB Buffer Pool 进 行 预 热 ， 以 便于 快速 恢复 到 之 前 的 性 能 状态 。 如 果 仪 靠 InnoDB 本 身 去 预 热 buffer， 将 会 是 一 个 不 短 的 时 间 周 期 ， 在 业务 高 峰 时 ， 数 据 库 将 面临 相当 
大 的 考验 ，MO 的 瓶颈 会 带 来 糟糕 的 性 能 。 早 上 8 点 用 户 登 录 时 ， 会 连接 数据 库 来 验证 密码 ， 此 时 先 在 内 存 里 找 ， 没 有 找到 就 会 再 到 磁盘 里 找 ， 这 样 相 当 于 走 了 两 个 环节 ， 一 个 用 户 登 录 不 上 ， 连 接 就 不 会 释 
放 ， 后 面 的 用 户 只 能 继续 排队 ， 导 致 连接 数 升 高 。 
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图 3-5 InnoDB Buffer Pool 使 用 情况 


select coun 


from User; 


select coun 


from Buddy; 


select coun 


from Password; 


而 在 MySQL5.6 里 ， 为 了 解决 上 述 问题 ， 提 供 了 一 个 新 特性 来 快速 预 热 Buffer_Pool 缓 冲 池 。 只 需 在 my.cnf 里 ， 加 入 如 下 命令 即 可 : 


innodb buffer pool dump at shutdown - 1 


解释 : 在 关闭 时 把 热 数 据 dump 到 本 地 磁盘 。 


innodb buffer pool dump now = 1 


解释 : 采用 手工 方式 把 热 数据 dump 到 本 地 磁盘 。 


innodb buffer pool load at startup = 1 


解释 : 在 启动 时 把 热 数据 加 载 到 内 存 。 


innodb buffer pool load now = 1 


解释 : 采用 手工 方式 把 热 数据 加 载 到 内 存 。 


在 关闭 MySQL 时 ， 会 把 内 存 中 的 热 数据 保存 在 磁盘 的 ib_buffer_pool 文 件 中 ， 该 文件 位 于 数据 目录 下 。 如 图 3-6 所 示 。 


120723 17:47:41 InnoDB: Dumping buffer pool(s) to /usr/local/mysaql/data/ib buffer pool 


120723 17:47:41 InnoDB: Buffer pool(s) dump completed at 120723 17:47:41 
图 3-6 th MAES Ade HH 


在 启动 MySQL 时 ， 会 自动 加 载 热 数 据 到 Buffer_Pool 缓 冲 池 里 ， 这 样 ， 机 器 重启 后 热 数据 会 始终 保存 在 内 存 中 ， 如 图 3-7 所 示 。 


120723 17 F 49 s IE! InnoDB: Loading buffer pool (s) fr OI /usr/ ] ocal /my sql fda ta/ib buffer pool 
图 3-7 ”加载 热 数据 到 InnoDB_Buffer_Pool 
Qum 只 有 在 正常 关闭 MySQL 服 务 ， 或 者 pkill mysql 时 ， 才 会 把 热 数 据 导 出 到 内 存 。 机 器 宕 机 或 者 pkill-9 mysql, ERAF H aj. 


下 面 骨 来 看 个 “磁盘 高 负荷 把 MySQL 拖 垮 ”的 案例 ， 我 们 有 块 业务 需要 记录 大 量 的 LOG 日 志 ， 插 入 操作 很 频繁 ， 这 就 导致 了 磁盘 高 负荷 运转 ， 结 果 就 是 CPUWait 1/O 升 高 ， 负 载 加 大 ， 来 看 看 CPU 的 情 
况 ， 如 图 3-8 所 示 。 
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图 3-8 CPU 的 情况 
再 来 看 看 insert 写 操作 ， 平 均 每 秒 为 1000 个 ， 可 见 写 操 作 很 大 ， 如 图 3-9 所 示 。 
最 后 来 看 看 磁盘 情况 ， 它 处 于 饱和 状态 ， 处 理 一 个 MO 请 求 需要 等 待 15 毫 秒 ， 如 图 3-10 所 示 。 
此 时 出 现 了 大 量 慢 日 志 ， 而 这 并 不 是 因为 SQL 自身 存在 问题 ， 而 是 机 器 压力 大 造成 的 。 


把 情况 反馈 给 了 开发 ， 经 过 程序 Bug 处 理 后 ， 表 看 相应 的 指标 数 ， 如 图 3-11~ 图 3-14 所 示 。 


可 以 看 到 ， 磁 盘 /O 已 正常 ， 不 再 处 于 繁忙 状态 ， 处 理 一 个 MO 请 求 只 需要 等 待 2.49 毫 秒 。 比 起 之 前 的 15 毫 秒 来 ， 减 少 了 12.51 毫 秒 。 
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图 3-9 ”数据 库 性 能 QPS 
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图 3-10 ”磁盘 I/O 
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图 3-11 CPU 的 情况 


该 案例 的 瓶颈 是 磁盘 I/O 繁 忙 导致 CPU 负 载 升 高 。 如 果 你 以 后 也 遇 到 了 这 个 问题 ， 可 以 使 用 一 个 很 简单 的 方法 
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加 内 存 ， 现 在 内 存 的 价格 也 很 便宜 ， 直 接 用 硬件 去 解决 ， 把 InnoDB_Buffer_Pool 调 整 


成 内 存 的 70%， 减 少 磁盘 MO 的 压力 ， 当 InnoDB_Buffer_Pool 内 存 缓冲 池 大 于 你 的 数据 量 时 ， 此 时 的 性 能 是 最 好 的 ， 因 为 所 有 的 数据 增删 查 改 操 作 都 是 在 内 存 中 进行 的 ， 内 存 的 速度 要 比 磁 盘 快 得 多 。 
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图 3-12 ”数据 库 性 能 QPS 
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图 3-13 CPU 负载 


18 
16 
14 
12 
10 


Load Average 


O M > oc 


= + — / — S d n — ; — P /. - » — = — - 2 - = " —— ty T 5 
rrqm/s wrqm/s j £ w/ 8 sec/s wsec/s avgrq-sz avgqu-s2 await  svctm %util 


em 


"m ~ " f^ om ~ - CY ~ ^ m - - r 一 ， 
Beale & "7 | ~ | IT) nerf ~ '2 ( ) |) RL JF EOS 4 - ] 

3 gl tÒ | 31 7 f )1 7 ! M a z | 
vow v VI B "2". v VE - óJ L2 w” w^. -— S . w 4 we 一 . . -— 


[root @CFDBO1 


图 3-14 ”磁盘 I/O 


第 4 章 ”同步 复制 报错 故障 处 理 


在 发 生 故 障 进行 切换 后 ， 经 常 遇 到 的 问题 就 是 同步 报错 ， 我 见 过 很 多 DBA 都 是 执行 命令 “set global sql_slave_skip_counter=1;” 跳 过 并 忽略 错误 ， 这 种 方法 虽然 可 以 达到 让 同步 复制 继续 运行 的 目 
的 ， 但 其 实 就 是 掩 耳 资 铃 ， 因 为 此 时 slave 数 据 已 经 不 一 致 了 。 


另 一 种 方法 就 是 在 主 库 上 MySQLdump 导 出 数据 ， 然 后 在 slave 上 恢复 ， 当 数据 很 小 〈 比 如 几 个 GB) 的 时 候 ， 这 样 做 可 以 ， 没 有 任何 问题 。 但 如 果 你 的 公司 数据 量 很 庞大 ， 大 到 150~200 GB， 此 时 单 
纯 地 用 导出 和 导入 方法 ， 太 耗费 时 间 ， 不 可 取 。 经 过 一 段 时 间 的 摸索 ， 我 总 结 了 几 种 处 理 方法 。 本 章 将 针对 这 些 方法 进行 讲解 。 


4.1 最 弟 见 的 3 种 故障 


在 说 明 最 常见 的 3 种 故障 之 前 ， 先 来 看 一 下 异步 复制 和 半 同 步 复 制 的 区 别 : 
.异步 复制 : 简单 地 说 就 是 mastet 把 binlog 发 送 过 去 ， 不 管 slave 是 否 接收 完 ， 也 不 管 是 否 执行 完 ， 这 一 动作 就 结束 了 。 


. 半 同 步 复 制 : 简单 地 说 就 是 mastet 把 binlog 发 送 过 去 ，slave 确 认 接 收 完 ， 但 不 管 它 是 否 执行 完 ， 给 mastet 一 个 信号 我 这 边 收 到 了 ， 这 一 动作 就 结束 了 。 ( 半 同 步 复 制 patch 谷 歌 写 的 代码 ，MySQL5.5 上 正 
AH.) 


异步 的 劣势 是 : 当 master 上 写 操作 繁忙 时 ， 当 前 POS 点 ， 例 如 ， 是 10， 而 slave 上 IO_THREAD 线 程 接收 过 来 的 是 3， 此 时 master 宕 机 ， 会 造成 相差 7 个 点 未 传送 到 slave 上 而 数据 丢失 。 


接 下 来 要 介绍 的 这 3 种 故障 是 在 HA 集群 切换 时 产生 的 ， 由 于 是 异步 复制 ， 且 sync_binlog=0， 会 造成 一 小 部 分 binlog 没 接收 完 ， 从 而 导致 同步 报错 。 


4.2 ”特殊 情况 : slave 的 中 继 日 志 relay-log 损 坏 


当 slave 意 外 宕 机 时 ， 有 可 能 会 损坏 中 继 日 志 relay-log， 再 次 开启 同步 复制 时 ， 报 错 信息 如 下 : 


Last SQL Error: Error initializing relay log position: I/O error reading the header 
from the | binary log 
Last SQL Error: Error initializing relay log position: Binlog has bad magic number; 
It's not a binary log file that can be used by this version of MySQL 


解决 方法 : 找到 同步 的 binlog 日 志和 POS 点 ， 然 后 重新 进行 同步 ， 这 样 就 可 以 有 新 的 中 继 日 志 了 。 


下 面 来 看 个 例子 ， 这 里 模拟 了 中 继 日 志 损坏 的 情况 ， 查 看 到 的 信息 如 下 : 


MySQL» show slave status VG; 
大 大 大 大 大 类 大 大 类 大 大 大 大 大 类 大 大 类 大 大 类 大 大 大 大 大 大 > row 大 大 大 大 大 类 大 大 大 大 大 类 大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 
master Log File: MySQL-bin.000010 
Read master Log Pos: 1191 
Relay Log File: vm02-relay-bin.000005 
Relay Log . Pos: 253 
Relay master Log File: MySQL-bin.000010 
slave IO Running: Yes 
slave | SOL , Running: No 
Replicate Do DB: 
Replicate Ignore DB: 
Replicate Do Table: 
Replicate Ignore Table: 
Replicate Wild Do Table: 
Replicate Wild Ignore Table: 
Last Errno: 1593 
Last Error: Error initializing relay log position: I/O error reading the header from the binary log 
Skip Counter: 1 
Exec master Log Pos: 821 


其 中 ， 涉 及 几 个 重要 参数 : 
slave IO Running: 接收 master 的 binlog 信 息 
: master Log File: 正在 读 取 mastetr 上 binlog 日 志 名 。 
- Read, master. Log Pos: 正在 读 取 mastet 上 当前 binlog 日 志 POS 点 。 
- slave SQL Running: 执行 写 操作 。 
: Relay master Log File: 正在 同步 master 上 的 binlog 日 志 名 。 
: Exec_master_Log Pos: 正在 同步 当前 binlog 日 志 的 POS 点 。 
以 Relay master Log File 参 数值 和 Exec_master Log_Pos 参 数值 为 基准 。 
Relay master Log File:MySQL-bin.000010 
Exec master Log Pos:821 


接 下 来 可 以 重 置 主 从 复制 了 ， 操 作 如 下 : 


MySQL> stop slave; 

Query OK, 0 rows affected (0.01 sec) 

MySQL» CHANGE master TO master LOG FILE='MySQL-bin.000010', 
master LOG POS-821; 
Query OK, 0 rows affected (0.01 sec) 
MySQL» start slave; 
Query OK, 0 rows affected (0.00 sec) 


重新 建立 完 主 从 复制 以 后 ， 就 可 以 查看 一 下 状态 信息 了 ， 如 下 所 示 : 


MySQL» show slave status VG; 
大 大 大大 大 类 大 炎炎 大 大大 大 大 炎炎 类 类 大 炎炎 大 炎炎 火炎 大 d row 大 大 类 大 大 大大 大 大大 大 火炎 大 类 大 炎炎 大大 大大 炎炎 炎炎 大 
slave IO State: Waiting for master to send event 
master Host: 192.168.8.22 
master User: repl 
master Port: 3306 
Connect Retry: 10 
master Log File: MySQL-bin.000010 
Read master Log Pos: 1191 
Relay Log File: vm02-relay-bin.000002 
Relay Log Pos: 623 
Relay master Log File: MySQL-bin.000010 
7 slave IO Running: Yes 


slave SQL Running: Yes 
Replicate Do DB: 
Replicate Ignore DB: | 
Replicate Do Table: 
Replicate Ignore Table: 
Replicate Wild Do Table: 
Replicate Wild Ignore Table: 


Skip Counter: 0 
Exec master Log Pos: 1191 
Relay Log Space: 778 
Until Condition: None 
Until Log File: 
Until Log Pos: 0 
master SSL Allowed: No 
master SSL CA File: 
master SSL CA Path: 
master SSL Cert: 
master SSL Cipher: 
master SSL Key: 
Seconds Behind master: 0 
master SSL Verify Server Cert: No 


Last IO Errno: 0 
Last IO Error: 
Last SQL Errno: 0 


Last SQL Error: 


通过 这 种 方法 我 们 已 经 修复 了 中 继 日 志 。 是 不 是 有 些 麻 烦 ?” 其 实 如 果 你 有 仔细 看 完 第 1 章 的 新 特性 ， 会 发 现 MySQL5.5 已 经 考虑 到 slave 宕 机 中 继 日 志 损 坏 这 一 问题 了 ， 即 在 slave 的 配置 文件 my.cnf 里 要 
增加 一 个 参数 relay log recovery= 1 就 可 以 了 ， 前 面 已 经 介绍 了 ， 这 里 不 再 前 述 。 


4.3 ”人 为 失误 


这 种 情况 在 生产 环境 中 并 不 常见 ， 下 面 记 录 了 一 次 server-id 重 复 导 致 的 主 从 同步 复制 报错 。 
台 slave 存 在 server-id 重 复 


这 个 错误 一 般 是 初级 DBA 经 常 遇 到 的 ， 他 们 在 进行 主 从 配置 时 ， 直 接 把 master 的 my、cnf 复 制 到 slave 上 ， 却 忘记 了 修改 slave 上 的 server-id， 报 错 信息 如 下 : 


slave: received end packet from server, apparent master shutdown: 
slave I/O thread: Failed reading log event, 
reconnecting to retry, log 'MySQL-bin.000012' at position 106 


在 这 种 情况 下 ， 同 步 会 一 直 延 时 ， 永 远 也 同步 不 完 ，error 错 误 日 志 里 会 一 直 出 现 上 面 两 行 信息 。 解 决 方法 就 是 把 slave 机 器 上 的 server-id 改 成 不 一 致 ， 然 后 重启 MySQL 即 可 。 


44 ”避免 在 master 上 执行 大 事务 


这 是 一 个 真实 的 案例 ， 一 张大 表 大 约 有 70 GB， 因 为 业务 需要 ， 要 删除 一 些 数据 ， 由 于 删除 的 ID 关联 的 数据 太 多 ， 该 删除 操作 变 成 了 一 个 大 事务 ， 一 下 子 就 把 slave 给 卡 死 了 ， 当 时 的 现象 是 执 
行 “show slave status\G;” 时 ，Exec_master_Log_Pos 值 一 直 不 发 生变 化 ,但 Seconds_Behind_master 的 值 却 越 来 越 大 ， 致 使 同步 落后 越 来 越 多 。 


当时 的 SQL 语 句 是 : 


delete from bigtable where UserId = v userid ; 


表 数 据 如 图 4-1 所 示 。 
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碰 到 这 个 问题 后 ， 我 想 出 的 解决 办 法 是 改 为 用 存储 过 程 ， 每 删除 1000 条 事务 就 提交 一 次 ， 循 环 操作 直至 删除 完毕 。 经 过 优化 ， 行 锁 的 范围 变 小 了 ， 性 能 也 就 变 好 了 。 相 关 代 码 如 下 : 
DELIMITER $$ 
USE BIGDBSS 
DROP PROCEDURE IF EXISTS BIG table delete 1k$$ 
CREATE PROCEDURE BIG table delete 1k(IN v UserlId INT) 
BEGIN 
del 1k:LOOP 
delete from BIGDB.BIGTABLE where UserId = v UserId limit 1000; 
select row count() into Gcount; 
IF @count = 0 THEN 
select CONCAT ('BIGDB.BIGTABLE UserId = ', v UserId, ' is ', @count, ' rows.') as BIGTABLE delete finish; 
LEAVE del_1k; 
END IF; 
select sleep(1); 
END LOOP del 1k; 
ENDSS 
DELIMITER ; 
存储 过 程 上 线 后 ， 观 察 一 段 时 间 ， 同 步 复制 时 ，slave 复 制 正 常 ， 问 题解 决 。 
X = 1b + 
4.5 slave_exec_mode 参 数 可 上 自动 处 理 同 步 复制 错误 
大 家 有 没有 遇 到 这 种 情况 ， 假 日 里 ， 你 正在 外 面 享受 生 活 ， 突 然 手 机 收 到 一 条 短信 一 一 主 从 同步 报错 ， 会 让 你 原本 很 好 的 心情 一 下 子 沉 入 谷底 。 因 为 如 果 你 处 理 不 及 时 ， 同 步 复 制 会 因 报 错 而 中 断 ， 这 


样 就 会 对 业务 产生 影响 (如 果 你 没有 做 特殊 的 设置 ，MySQL 是 不 会 自动 跳 过 这 个 错误 的 ) ， 尤 其 是 开启 了 读 写 分 离 功能 后 


耳 旁 响起 了 。 
那么 该 如 何 解决 呢 ? slave_exec_mode 这 个 参数 可 以 帮助 你 。 


你 可 以 动态 设置 ， 如 下 所 示 : 


D 


EMPOTE 


set global slave exec mode-' NT "7 


用 户 发 了 一 个 帖子 ， 半 天 没 找到 自己 刚才 发 的 帖子 ， 投 诉 的 电话 就 得 在 老板 的 


其 默认 值 是 STRICT (严格 模式 ) ， 如 图 4-2 所 示 。 


mysql> show variables like 'slave exec mode : 


| slave exec mode | STRICT | 
1 ——— —€——— 4 


1 row in set (0.15 sec) 


mysql> set global slave exec mode= IDEMPOTENT - 


Query OK, 0 rows affected (0.03 sec) 


mysql> show variables like 'slave exec mode ; 


1 row in set (0.04 sec) 


图 4-2 设置 global slave exec mode #IDEMPOTENT 
全 注意 设置 完毕 后 ， 并 不 能 立即 生效 ， 需 要 重启 下 复制 进程 ， 第 一 步 : 关闭 同步 复制 ; 第 二 步 : 开启 同步 复制 ， 这 样 才 可 以 。 


设置 完毕 后 ， 当 出 现 的 1023 错 误 (记录 没 找到 ) 和 1062 错 误 (主键 重复 ) 时 ， 就 会 自动 跳 过 该 错误 ， 并 且 记 录 到 错误 日 志 里 。 其 实 ，slave_exec_mode 人 参数 和 slave_skip_errors 参 数 的 作用 是 一 样 的 ， 
只 不 过 slave skip_errors 参 数 必须 加 到 配置 文件 my.cnf 里 然后 重启 MySQL， 而 slave_exec_mode 人 参数 可 以 动态 设置 。 


另外 ， 你 还 可 以 在 Nagios 主 机 上 做 个 监控 ， 当 出 现 同步 报错 时 ， 执 行 相应 的 命令 : 


MySQL -uroot -p123456 -h(yourIP) -e "set global slave exec mode-'IDEMPOTENT';" 


下 面 是 我 实现 的 一 个 脚本 skip_slave_error.sh: 


#!/bin/bash 

user=admin 

passwd=123456 

port=3306 
MySQLpath-/usr/local/MySQL/bin 
for hostip in 'cat slaveip.txt' 


do 
result-$ (SMySQLpath/MySQL -uSuser -p$passwd -h$hostip -P$port \ 
-e "show slave status NG" | awk -F": " '/slave SQL Running/{print $2}') 
if [ "Sresult" != "Yes" ];then 
SMySQLpath/MySQL -u$user -p$passwd -h$hostip -P$port \ 
-e "set global slave exec mode-'IDEMPOTENT';" 
SMySQLpath/MySQL -u$user -p$passwd -h$hostip -P$port \ 
-e "stop slave;" 
SMySQLpath/MySQL -u$user -p$passwd -hShostip -P$port \ 
-e "start slave;" 
echo "replication is error and skip" | mail -s "replcation Alert" hechunyang@139.com \ 
-- -f nagiosadmin@139.com -F nagiosadmin 
# 发 送 一 封 邮件 并 短信 通知 你 同步 报错 已 经 跳 过 了 。 
hn 
done 


slaveip.txt 文 件 填写 你 的 slave 机 器 的 IP， 如 下 面 这 样 一 行 一 行 添 加 ， 上 面 的 脚本 会 调用 slaveip.txt: 


# cat slaveip.txt 
192.168.8.22 
192.168.8.23 
192.168.8.24 
192.168.8.25 
192.168.8.26 


然后 将 脚本 skip_slave_error.sh 加 入 到 crontab 里 ， 每 十 分 钟 检查 一 次 


*/10* * * * bash /home/hechunyang/skip slave error.sh 


这 样 可 以 尽 可 能 地 减少 业务 影响 的 范围 扩 大， 等 你 到 家 时 再 做 下 一 步 处 理 。 


参考 手册 : 


Binary log execution errors and slave exec mode. lfsiave exec mode is IDEMPOTENT, a failure to apply changes 
from RBL because the original row cannot t be found does not trigger an error or cause replication to fail. This means that it is pos- 


sible that updates are not applied on the slave, so that the master and slave are no longer synchronized. Latency issues and use of 
nontransactional tables with RBR when slave exec mode ls IDEMPOTENT can cause the master and slave to diverge even fur- 
ther. For more information about slave exec mode, see Section 5.1.3, "Server System Variables". 


4.6 ”如何 验 证 主 从 数据 一 致 


Maatkit 是 一 个 开源 的 工具 包 ， 为 MySQL 日 常 管理 提供 了 帮助 。 目 前 ， 已 被 Percona 公 司 收购 并 维护 。 其 中 mk-table-checksum 是 用 来 检测 master 和 slave 上 的 表 结构 和 数据 是 否 一 致 的 。 而 mk- 
table-sync 则 是 在 主 从 数据 不 一 致 时 ， 用 来 修复 的 


Qua 这 两 个 ped 脚 本 在 运行 时 都 会 锁 表 ， 表 的 大 小 取决 于 执行 的 快慢 ， 勿 在 高 峰 期 间 运 行 ， 可 选择 凌晨 。 


其 使 用 方法 如 下 : 


[root@vm02]# mk-table-checksum h=vm01, u-admin, p-123456 \ 

h-vm02, u-admin, p-123456 -d hcy -t t1 

Cannot connect to MySQL because the Perl DBI module is not installed 
or not found. Run ‘perl -MDBI' to see the directories that Perl 
searches for DB DBI is not installed, try: 

Debian/Ubuntu apt-get install libdbi-perl 

RHEL/CentOS yum install perl-DBI 
OpenSolaris pgk install pkg:/SUNWpmdbi 
[root@vm02] # 


这 里 提示 缺少 perl-DBI 模 块 ， 那 么 直接 运行 yum install perl-DBI。 再 次 执行 这 一 条 命令 : 


[root@vm02 bin]# mk-table-checksum h=vm01, u-admin, p-123456 \ 
h-vm02, u-admin, p-123456 -d hey -t t1 


DATABASE TABLE CHUNK HOST ENGINE COUNT CHECKSUM TIME 
WAIT STAT LAG 

hcy ti 0 vm02 InnoDB NULL 1957752020 0 
0 NULL NULL 

hcy ti 0 vm01 InnoDB NULL 1957752020 0 
0 NULL NULL 


[root@vm02 bin] # 


如 果 表 数据 不 一 致 ，CHECKSUM 的 值 是 不 相等 的 。 
下 面 ， 解 释 一 下 输出 的 意思 : 

- DATABASE: 数据 库 名 

- TABLE: 表 名 

- CHUNK: checksum 时 的 近似 数值 
- HOST: MySQL 的 地 址 

- ENGINE: A3] 

: COUNT: 表 的 行 数 

- CHECKSUM: 校 验 值 

- TIME: 所 用 时 间 

. WAIT: 等 待 时 间 

- STAT: master POS_WAITO 返 回 值 
- LAG: slave 的 延 时 时 间 


如 果 你 想 过 滤 出 不 相等 的 表 ， 可 以 用 mk-checksum-filter 这 个 只 要 在 -d hcy 后 面 加 个 管道 符 就 行 了 。 示 例如 下 : 


[root@vm02 ~]# mk-table-checksum h=vm01, u=admin, p=123456 \ 
h=vm02, u=admin, p=123456 -d hcy | mk- checksum- filter 


hcy t2 0 vm01 InnoDB NULL 1957752020 0 
0 NULL NULL 
t2 0 vm02 InnoDB NULL 1068689114 0 


hcy 
0 NULL NULL 


在 知道 有 哪些 表 不 一 致 后 ， 可 以 用 mk-table-sync 这 个 工具 来 处 理 (如 图 4-3 所 示 ) 。 


Maatk it 工具 包 


mymgl? select * from t2; mysql> select * from t2; 
d——————. E————À——e 
| id | name | | id | name | 
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该 工具 的 使 用 方法 如 下 : 


[root@vm02 ~]# mk-table-sync --execute --print --no-check-slave --transaction \ 
--databases hcy h-vm01, u-admin, p=123456 h-vm02, u-admin, p-123456 


INSERT INTO 'hcy'. 't2' ('id', 'name') VALUES ('5', ''ss') /*maatkit src db:hcy 
src tbl:t2 src dsn:h-vm01l, p-http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/..., u-admin dst db:hcy dst tbl:t2 
dst dsn:h-vm02, p-http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/..., u-admin lock:0 transaction:1 changing src:0 repli 


bidirectional:0 pid:3246 user:root host:vm02*/; 


它 的 工作 原理 是 : 先 一 行 一 行 地 检查 主 从 库 的 表 是 否 一 样 ， 如 果 发 现 有 哪里 不 一 样 ， 就 执行 删除 、 更 新 、 插 入 等 操作 ， 使 其 达到 一 致 。 表 的 大 小 决定 着 执行 速度 的 快慢 。 


4.7 binlog ignore db 引起 的 同步 复制 故障 


这 是 我 一 个 同事 提供 的 案例 ， 在 MySQL master 上 使 用 binlog_ignore_db 命 令 忽略 了 一 个 库 以 后 ， 使 用 MySQL-e 执 行 的 所 有 语句 就 不 写 binlog 了 。 听 他 这 样 阅 ， 我 也 觉得 很 奇怪 ， 详 细 询 问 当 时 的 情 
况 ， 原 来 是 在 进行 主 从 复制 时 ， 有 一 个 库 不 复制 ， 查 了 他 的 my.cnf 配 置 ，binlog 格 式 为 row 模 式 ， 跟 他 要 了 当时 的 语句 ， 如 下 : 


MySQL -e "create table db.tb like db.tb1" 


查看 手册 ， 了 解 到 是 因为 忽略 某 个 库 的 复制 有 两 个 参数 ， 一 个 是 binlog_ignore_db， 另 一 个 是 replicate-ignore-db， 它 们 的 区 别 是 : 


binlog_ignore_db 参 数 是 设置 在 主 库 上 的 ,例如 ，binlog_ignore_db=test， 那 么 针对 test 库 下 的 所 有 操作 ( 增 、 删 、 改 ) 都 不 会 记录 下 来 ， 这 样 slave 在 接收 主 库 的 binlog 时 文件 量 就 会 减少 ， 这 样 做 
的 好 处 是 可 以 减少 网 络 |/O， 减 少 slave 端 I/O 线 程 的 |/O 量 ， 从 而 最 大 幅度 地 优化 复制 性 能 。 但 也 存在 了 一 个 隐患 ， 对 于 这 个 隐患 ， 在 后 面 的 演示 中 会 提 到 |。 


replicate-ignore-db 参 数 是 设置 在 从 库 上 的 ,例如 ，replicate-ignore-db=test， 那 么 针对 test 库 下 的 所 有 操作 ( 增 、 删 、 改 ) 都 不 会 被 SQL 线 程 执 行 ， 从 性 能 上 来 说 ， 它 虽然 没有 binlog_ignore_db 
好 (不 管 是 否 需 要 ， 复 制 的 binlog 都 被 会 被 /O 绪 程 读 取 到 slave 端 ， 这 样 不 仅仅 增加 了 网 络 M/O 量 ， 也 给 slave 端 的 MO 线程 增加 了 RelayLog 的 写 入 量 ) ， 但 在 安全 上 ， 可 以 保证 master 和 slave 数 据 的 一 致 
性 。 


下 面 就 来 演示 一 下 ， 创 建 表 为 什么 没有 记录 在 binlog 日 志 里 ， 如 图 4-4 所 示 。 


结果 新 创建 的 表 在 slave 上 一 个 都 没有 。 到 底 是 什么 原因 引起 的 呢 ? 那 就 是 因为 没有 使 用 use 库 名 ， 如 果 使 用 了 ， 就 可 以 记录 binlog 了 ， 如 图 4-5 所 示 。 


mysql> show master status: 
+ 一 一 一 一 -一 一 一 一 一 一 一 -一 -一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Position | Binlog Do DB | Binlog Ignore DB 


lcfivsal-bin. 000003 | 
1 row in set (0.00 sec) 


mysql? create table testl.number3 like testl. number; 


Query OK, 0 rows affected (0.07 sec) 


mysql> show master status: 


lGRysql-bin.000003 | | 


l row in set (0.00 sec) 


mysql> show variables like 'Xbinlog format ; 
Peces eres ee eite 4 

Variable name | Value 
P EE E Te + 

binlog format | ROW | 


l row in set (0.00 sec) 


图 4-4 binlog 未 发 生变 化 


mysql> show master status; 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 和 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


| Position | Binlog Do DB | Binlog Ignore DB | 


l row in set (0.00 sec) 


mysql> use testl;: 

Database changed 

mysql> 

mysql> create table testl. number4 like testl. number: 


Query OK, 0 rows affected (0.04 sec) 
mysql> show master status: 


| Position | Binlog Do DB | Binlog Ignore DB | 
一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


l row in set (0.00 sec) 


mysql> show variables like '*binlog format ; 


图 4-5 binlog 发 生变 化 


所 以 ， 如 果 想 在 slave 上 忽略 一 个 库 的 复制 ， 最 好 不 要 用 binlog ignore db 这 个 参数 ， 使 用 replicate-ignore-db=yourdb 取 代 之 。 


4.8 MySQL5.5.19/20 同 步 一 个 Bug 


当 我 们 在 用 低 版 本 MySQL5.1.43 (slave) 向 高 版 本 5.5.19 (master) 同步 复制 时 ， 运 维 组 反馈 MySQL 反 复 重 启 ， 后 来 ， 在 错误 日 志 里 发 现 了 一 个 Bug 信 息 ， 如 图 4-6 所 示 。 


120803 22:04:06 - mvsald got signal 11 

his could be because vou hit a bug. It is also possible that this binary 

or one of the libraries it was linked against is corrupt, improperly built, 

or misconfigured. This error can also be caused by malfunctioning hardware. 

e will try our best to scrape up some info that will hopefully help diagnose 

he problem, but since we have already crashed, something is definitely wrong 
d this mav fail. 


图 4-6 ”Bug 信息 


后 来 经 过 排查 ， 得 知 低 版 本 向 高 版 本 同步 复制 ， 只 要 同步 复制 的 点 指 错 ， 主 机 master 的 MySQL 服 务 就 会 循环 重启 ，MySQL 和 Percona 版 本 均 是 如 此 ， 但 版 本 一 致 的 ， 就 不 会 发 生 此 问题 。 如 果 点 指 
对 ， 即 使 同步 复制 因为 某 种 原因 导致 报错 ， 主 机 master 的 MySQL 服 务 也 不 会 循环 重启 。 


比如 master 上 的 binlog 和 POS 点 是 : 


MySQL-bin.000001, 107 


那么 你 在 slave 上 执行 如 下 操作 : 


CHANGE master TO master LOG FILE-'MySOL-bin.000001', master LOG POS-106; 


就 会 触发 那个 BUG。 有 兴趣 的 朋友 可 以 用 那 两 个 版 本 试 试 。 官 方 下 载 地 址 : http://downloads.MySQL.com/archives.php， 目 前 MySQL5.5.25a 之 后 的 版 本 已 经 修复 了 此 BUG。 但 不 推荐 低 版 本 向 高 版 
本 同步 ， 手 册 上 解释 : 


16.4.2. Replication Compatibility Between MySQL Versions 


MySQL supports replication from one major version to the next higher major version. For example, you can replicate from a master 
running MySQL 4.1 to a slave running MySQL 5.0, from a master running MySQL 5.0 to a slave running MySQL 5.1, and so on. 


意思 为 : MySQL 支 持 从 高 版 本 向 低 版 本 同步 ( 即 master 是 低 版 本 ，slave 是 高 版 本 ， 那 么 slave 向 master 同 步 复 制 时 是 兼容 的 ， 没 有 问题 ) 


Replication from newer masters to older slaves may be possible, but is generally not supported. This is due to a number of factors: 


* Binary log format changes. The binary log format can change between major releases. While we attempt to maintain backward 
compatibility, this is not always possible. For example, the binary log format —— à in n MySQL 5.0 — considerably 
from that used in previous versions, especially with regard to handling of character sets, LOAD DATA INFILE,and time zones. 
This means that replication from a MySQL 5.0 (or later) master to a MySQL 4.1 (or earlier) slave is generally not supported. 


This also has significant implications for upgrading replication servers; see Section 16.4.3, "Upgrading a Replication Setup", for 
more information. 


但 反 过 来 ， 就 会 存在 问题 。 尤 其 是 字符 集 设 置 这 块 ， 如 图 4-7 所 示 。 


Last IO Error: 
Last SQL Errno: 22 
Last SQL Error: Error 'Character set ' #45’ is not a compiled character set and is not specified in the ' /home 
sql/mysql—-5. 1. 43spl-br38368/share/charsets/Index. xml’ file on query. Default database: 'IICUPDB'. Query: 'DROP /*!40005 TEI 
ORARY */ TABLE IF EXISTS tt DelChatFriendIds ' 
1 row in set (0.00 sec) 


图 4-7 字符 集 未 识别 报错 
在 低 版 本 V5.1.43 里 ， 是 不 识别 高 版 本 这 种 字符 集 的 ， 如 图 4-8 所 示 。 
mysql> SET G8session.character set client-33, @@session. collation connection=45, @@session. collation server=33/*!*/: 


ERROR 1273 (HY000): Unknown collation: '45' 
mysql»? li 


图 4-8” 低 版 本 字符 集 未 识别 


再 来 看 下 高 版 本 V5.5.19 的 表现 ， 如 图 4-9 所 示 。 


mysql> SET @@session. character set client=33, @@session. collation connection-45, @@session. collation server-33/*!*/.: 


Query OK, 0 rows affected (0.02 sec) 


mysql? select version(); 


图 4-9 ”高 版 本 字符 集 识 别 


这 条 语 a4) 是 可 以 识别 的 。 


所 以 在 这 里 提醒 大 家 一 下 ， 如 果 master 的 版 本 低 ，slave 的 版 本 高 ， 做 主 从 复制 是 没有 问题 ， 可 以 兼容 。 但 反 过 来 ，master 的 版 本 高 ，slave 的 版 本 低 ， 就 会 出 现 文中 这 种 情形 ， 在 日 常 操 作 中 格外 注 


ai 


在 日 常 工 作 中 ， 同 步 报错 是 数据 库 管 理 员 遇 到 最 多 的 一 个 问题 ， 如 果 你 修复 后 发 现 还 没有 解决 ， 通 党 的 方法 就 是 在 master 上 重新 导出 一 份 ， 然 后 在 slave 上 恢复 。 这 个 方法 是 针对 整个 库 不 是 很 大 的 情况 
的 ， 那 如 果 是 较 大 呢 ? 全 部 导出 再 导入 耗 时 就 很 长 。 


这 时 ， 就 要 通过 特殊 的 方法 恢复 某 几 张 表 ， 例 如 ， 有 a1、b1、c1 这 三 张 表 的 数据 跟 master 上 的 不 一 致 ， 操 作 方 法 如 下 : 


1) 停止 slave 复 制 ， 命 令 如 下 : 


MySQL>stop slave; 


2) 在 主 库 上 导出 这 三 张 表 ， 并 记录 下 同步 的 binlog 和 POS 点 : 


# MySQLdump -uroot -p123456 -q --single-transaction --master-data-2 yourdb al bl cl > ./al bl cl.sql 


3) 查看 a1_b1_c1.sql| 文 件 ， 找 出 记录 的 binlog 和 和 POS 点: 


# more al bl cl.sql 例 如 master LOG FILE-'MySQL-bin.002974', master LOG POS=55056952; 


4) 把 a1_b1_c1.sq| 复 制 到 slave 机 器 上 ， 并 做 Change master to 指向 : 


MySQL>start slave until master LOG FILE-'MySQL-bin.002974', master LOG POS=55056952; 


直到 sql_thread 线 程 为 NO， 这 期 间 的 同步 报错 一 律 跳 过 即 可 ， 可 用 如 下 命令 跳 过 


stop slave ;set global sql slave skip counter-1;start slave; 


Oza 这 一 步 是 为 了 保障 其 他 表 的 数据 不 丢失 ， 一 直 同 步 ， 直 到 同步 到 那个 点 为 止 ，al、b1、c1 表 的 数据 在 之 前 的 导出 已 经 生成 了 一 份 快照 ， 只 需要 导入 后 开启 同步 即 可 。 


5) 在 slave 机 器 上 导入 a1_b1_c1.sql， 命 令 如 下 : 


# MySQL -uroot -p123456 yourdb < ./al bl cl.sql 


6) 导入 完毕 后 ， 开 局 同步 即 可 。 


MySQL>start slave; 


这 样 我 们 就 恢复 了 3 张 表 ， 并 且 同 步 也 修复 了 。 


4.10 ”如 何 干净 地 清除 slave 同 步 信 息 


比如 ， 在 某 些 应 用 场景 ， 我 们 要 下 线 一 台 slave 从 机 ， 一 般 会 执行 reset slave 来 清除 show slave status\G 里 面 的 同步 信息 ， 但 当 你 再 次 执行 时 ， 发 现 并 不 是 我 们 想 要 的 结果 ， 如 下 所 示 : 


MySQL» stop slave; 

Query OK, 0 rows affected (0.19 sec) 

MySOL» reset slave; 

Query OK, 0 rows affected (0.17 sec) 

MySQL» show slave status VG; 

大 大 类 大 大 类 大 大 类 大 大 类 大 炎炎 大 大 类 大火 大 大 大 大 大 火炎 T4 row 大 大 类 大 大 火炎 大 类 大 大 类 大 大 类 大 炎炎 大 大 类 炎炎 炎炎 火炎 
slave IO State: 

master Host: 192.168.8.22 
master User: repl 
master Port: 3306 
Connect Retry: 10 
master Log File: 
Read master Log Pos: 4 

Relay Log File: vm02-relay-bin.000001 

Relay Log Pos: 4 

Relay master Log File: 

slave IO Running: No 

slave | SOL , Running: No 

Rep] licate Do DB: 

Replicate Ignore | DB: 

Replicate _ Do Table: 

Replicate Ignore Table: 

Replicate Wild Do Table: 

Replicate Wild Ignore Table: 

Last Errno: 0 7 
Last Error: 

Skip | Counter: 0 

Exec master Log Pos: 0 

Relay | Log | Space: 126 

Until Condition: None 

Until Log Fil e: 

Until Log Pos: 0 
master SSL Allowed: No 
master SSL CA File: 
master SSL CA Path: 

master SSL Cert: 

master SSL , Cipher: 

master SSL Key: 

Seconds Behind master: NULL 

master SSL Verify Server Cert: No 

Last IO Errno: 0 

Last IO Error: 

~ Last SQL Errno: 0 

Last | SQL | Error: 
Replicate _ Ignore Server Ids: 
master Server Id: 22 i 

1 row in set (0.02 sec) 

ERROR: 

No query specified 


执行 reset slave， 其 实 是 把 master.info 和 relay-log.info 文 件 给 删除 ， 但 里 面 的 同步 信息 还 在 ， 如 果 此 时 有 人 误 开启 了 start slave， 结 果 就 会 又 开始 从 头 同 步 了 ， 有 可 能 还 会 造成 数据 丢失 。 那 么 可 以 用 
面 这 个 方法 ， 让 其 清除 得 更 为 彻底 。 


MySQL> reset slave all; 

Query OK, 0 rows affected (0.04 sec) 
MySQL» show slave status VG; 

Empty set (0.02 sec) 

ERROR: 

No query specified 


全 注意 “此 语句 支持 在 MYSQIL5.5.20 或 更 高 版 本 。 


第 5 草 ”性 能 调 优 


调 优 ， 就 好 比 盖 楼 打 地 基 ， 地 基 打 得 不 稳 ， 楼 层 一 高 ， 就 会 塌方 。 数 据 库 也 是 如 此 ， 数 据 少 ， 并 发 小 ， 隐 藏 的 问题 是 发 现 不 了 的 ， 只 要 达到 一 定 规模 后 ， 所 有 的 问题 就 会 全 部 暴露 出 来 了 ， 所 以 前 期 的 
设计 阶段 尤为 重要 。 如 今 ， 数 据 库 的 大 并 发 查询 、 写 入 操作 已 成 为 整个 应 用 的 性 能 瓶颈 ， 对 于 Web 应 用 来 说 尤为 明显 。 关 于 数据 库 的 性 能 ， 并 不 只 是 DBA、 运 维 人 员 才 需要 担心 的 事 ， 更 是 所 有 广大 开发 人 
员 需 要 重点 关注 的 。 


在 宏观 上 来 说 ， 调 优 分 为 3 个 部 分 : 硬件 、 网 络 、 软 件 ， 前 两 个 取决 于 你 公司 的 经 济 实力 ， 这 里 不 多 介绍 。 软 件 再 细 分 为 表 设计 (范式 、 字 段 类 型 、 存 储 引 擎 ) 、SQL 语 句 与 索引 、 配 置 文件 参数 、 操 作 
系统 、 文 件 系 统 、MySQL 版 本 、 体 系 架 构 这 几 大 部 分 。 下 面 本 章 将 进行 逐个 阐明 。 


在 设计 关系 数据 库 时 ， 要 遵从 不 同 的 规范 要 求 来 设计 出 合理 的 关系 型 数据 库 ， 这 些 不 同 的 规范 要 求 被 称 为 不 同 的 范式 ， 各 种 范式 呈 递 次 规范 ， 越 高 的 范式 数据 库 元 余 越 小 。 


目前 关系 数据 库 有 6 种 范式 : 第 一 范式 (INF) 、 第 二 范式 (2NF) 、 第 三 范式 (3NF) 、 巴 德 斯 科 范 式 (BCNF) 、 第 四 范式 (4NF) 和 第 五 范式 (5NF， 又 称 完美 范式 ) 。 满 足 最 低 要 求 的 范式 是 第 
一 范式 (INF) 。 在 第 一 范式 的 基础 上 进一步 满足 更 多 规范 要 求 的 称 为 第 二 范式 (2NF) ,其余 范式 依次 类 推 。 一 般 说 来 ， 数 据 库 只 需 满 足 第 三 范式 (NF) 就 行 了 。 


1. 第 一 范式 (1NF) 


第 一 范式 (INF) : 数据 库 表 中 的 字段 都 是 单一 属性 的 ， 不 可 再 分 。 这 个 单一 属性 由 基本 类 型 构成 ， 包 括 整 型 、 字 符 型 、 逻 辑 型 、 日 期 型 等 。 在 当前 的 任何 关系 数据 库 管 理 系统 (DBMS) 中 ， 不 可 能 
做 出 不 符合 第 一 范式 的 数据 库 ， 因 为 这 些 DBM 不 允许 你 把 数据 库 表 的 一 列 再 分 成 二 列 或 多 列 。 因 此 ， 你 想 在 现 有 的 DBM 中 设计 出 不 符合 第 一 范式 的 数据 库 都 是 不 可 能 的 。 


来 看 个 例子 ， 表 5-1 是 一 个 病人 信息 表 。 


A51 病人 信息 表 
出 生日 期 就 诊 记 录 联系 方式 


1982.10.14 133XXXXXXX 


1987.5.6 132XXXXXXX 


1989.12.3 135XXXXXXX 
1 


病人 编号 姓名 
王 小 姐 
2003002 苏 小 姐 


E 
un 


ht 
© 
© 
LA 
je 
© 
pð 


2003004 tH 1980.5.3 子宫 内 膜 增 厚 33XXXXXXX 
2003005 1982.1.19 白带 增多 158XXXXXXX 
2003006 办 小 姐 1984.6.26 月 经 不 让 159 XXXX XXX 
2003007 1983 4.14 精子 弱 134XXXXXXX 
2003008 高 先生 jj 1978.2.26 Py ike [i fs I32XXXXXXX 
2003009 "c if 1985.6.16 13 1XXXXXXX 


2003010 1985.9.4 包皮 过 长 130XXXXXXX 
2003011 a E 1987.2.14 nu AI) ae lASXXXXXXX 
2003012 司 先生 1978.4.18 生殖 器 感染 154XXXXXXX 


如 果 把 联系 方式 那 列 再 分 为 手机 和 家 庭 电 话 ， 就 不 符合 第 一 范式 ， 如 表 5-2 所 示 。 


表 5-2 病人 信息 表 (不 符合 第 一 范式 ) 


病人 编号 本 联系 方式 


2003001 d ZEE] 6402X XXX 133XXXXXXX 
2003002 6402X X XX 132XXXXXXX 
2003003 合 小 i 64102X XXX 135XXXXXXX 
2003004 竺 小 姐 1980.> 内 膜 增 厚 6402XXXX 133 XXXXXXX 


2003005 张 小 姐 1982.1.19 楷 增 人 4 6402XXXX ISREXEXXXXXX 
2003006 AEN 1984.6.26 6402XXXX | 159XXXXXXX 
2003007 1983.4.14 s 子 弱 6402XXXX | 134XXXXXXX 


2003008 078226 | AERE GA02XXXX | I32XXXXXXX 


那 必 须要 把 联系 方式 变更 为 住宅 电话 和 手机 号 ， 该 怎么 办 呢 ， 可 如 表 5-3 一 样 来 调整 。 


表 5-3 病人 信息 表 (符合 第 一 范式 ) 


病人 编号 就 诊 记录 手机 号 

1 孚 后 检查 6402XXXX 3IODDOUXX 
2003003 ET 6402XXXX 
2003004 RUN lH |o x | 1980.5 


一 句 话 总 结 : 只 要 是 关系 数据 库 都 满足 第 一 范式 。 
2. 第 二 范式 (2NF) 
第 二 范式 (2NF) 是 在 第 一 范式 (1NF) 的 基础 上 建立 起 来 的 ， 即 满足 第 二 范式 (2NF) 必须 先 满足 第 一 范式 (INF) 。 第 二 范式 (2NF) 要 求实 体 的 属性 完全 依赖 于 主 关 键 字 。 
还 是 以 上 面 的 病人 信息 表 来 举例 ， 下 面 在 上 表 的 基础 上 新 增加 了 一 些 字段 ， 如 图 5-1 所 示 。 
RASS Au TERI 出 生日 期 Musics 联系 方式 Atma 姓名 TERI US 科室 编号 本 ap 
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图 5-1 病人 信息 表 (增加 字段 ) 


5-1 中 的 信息 存在 着 以 下 依赖 天 系 : 

{ 病 人 编号 } 一 { 姓 名 ， 性 别 ， 出 生日 期 ， 就 诊 记录 ， 联 系 方式 ) 

{ 医 生 编号 } 熏 { 姓 名 ， 性 别 ， 职 称 ， 科 室 编 号 ， 科 室 名 称 ， 负 责 人 ， 诊 室 号 } 

这 里 ， 出 现 了 两 个 主 关 键 字 ， 显 然 不 满足 第 二 范式 。 从 表 里 的 数据 来 看 ， 出 现 了 宛 余 数据 : 3 名 患者 找 同 一 个 医生 看 病 时 ， 医 生 编号 、 姓 名 、 职 称 等 字段 就 重复 了 3 次 。 


下 面试 着 把 上 面 的 一 张 表 改 为 三 张 表 ， 如 图 5-2~ 图 5-4 所 示 。 


mV Eze (ER AARS 
HARD RES TER 出 生日 期 MUS io FARIA, 
| 2003001 | 王 小 姐 | Sx | 1982.10.14 | FERE | 133XXXX- 
| 2003002 | ZB | 如 | 198T.5.6 流产 
2003003 | 合 小 姐 | Sx | 1989.12.3 | 痛经 | IbSXXXX 


"T- 


lj 


| 2003004 | BR | X | 1980.5.3 | FE ARES 
| 2003005 | 张 小 姐 | 如 | 1982.1.19 | 自 带 增多 | IDOXXXX- 


| 2003006 | 山 小 姐 | se | 1984.6.26 | 月 经 不 调 | I8TXXXX 
| 2003012 | 周 先生 | A | 1978.4.18 | 个 殖 器 感染 | L32XXXX- 


商人 挂号 信息 
挂号 单 流水 号 


ER: 


图 5-2 病人 信息 表 


图 5-3 KAR ER 


rm 


ASS 医生 编号 


20030531000001 1 
20030531000002 
20030531000003 
20030531000004 
20030531000005 

| 920030531000006 
20030531000007 
20030531000008 
20030531000009 
20030531000010 | 200308 | 4 
20030531000001 | 2003011 | 4 
20030531000001 | 200302 | 4 

这 样 就 符合 了 第 二 范式 ， 非 关键 字段 都 依赖 于 主键 ， 但 这 样 拆 分 是 不 符合 第 三 范式 的 。 

3. 第 三 范式 (3NF) 


三 范式 (3NF) 是 第 二 范式 (2NF) 的 一 个 子 集 ， 即 满足 第 三 范式 (3NF) 必须 满足 第 二 范式 (2NF) 。 简 而 言 之 ,不 存在 非 关 键 字 段 对 任 一 候选 关键 字段 的 传递 函数 依赖 。 
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仍 以 上 面 的 医生 信息 表 为 例 ， 在 图 5-3 里 是 存在 着 传递 依赖 关系 的 ， 如 下 所 示 : 
(EAE (ER, TER), BRE) 
{ 科 室 编 号 } 熏 { 科 室 名 称 ， 负 责 人 ， 诊 室 号 } 


可 以 看 到 ， 科 室 名 称 依赖 着 科室 编号 、 科 室 编号 依赖 着 医生 编号 ， 这 里 存在 数据 元 余 ， 所 以 不 符合 第 三 范式 ， 将 这 个 表 再 进行 拆 分 ， 如 图 5-5 和 图 5-6 所 示 。 
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图 5-6 ”科室 信息 表 ( 拆 分 后 ) 
另外 ， 图 5-4 也 跟着 变动 ， 如 图 5-7 所 示 。 
经 过 上 述 调 整 ， 消 除了 数据 元 余 、 更 新 异常 、 插 入 异常 和 删除 异常 。 这 些 数据 库 表 就 符合 第 一 至 第 三 范式 了 。 


E-R 图 也 称 实体 -联系 图 ， 提 供 了 表示 实体 类 型 、 属 性 和 联系 的 方法 ， 程 序 设 计 初 期 就 需要 通过 画 E-R 图 来 确定 实体 之 间 的 关系 。 我 们 来 看 看 病人 和 医生 信息 的 E-R 图 ， 如 图 5-8 所 示 。 


WATS aoe (EUR. Poe, JME: duy. Tux. AEA) 


20030531000006 l 
| 20030531000007 | 2003007 | 102 | 3 | 
| 20030531000008 |2003008| 102 | 3 | 
| 20030531000009 [2003009| 102 | 3 | 
| 20030531000010 | 2003010 | 102 - 
| 20030531000001 


| 20030531000001 |2003012| 102 | 4 | 


图 5-7 病人 挂号 信息 表 (调整) 
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: 科室 编号 | 一 一 一 一 
科室 名 称 
负责 人 


图 5-8 ”实例 关系 图 


小 结 : 在 开发 应 用 程序 时 ， 设 计 的 数据 库 要 最 大 程度 地 遵守 三 范式 ， 特 别 是 对 于 OLTP 型 的 系统 来 说 ， 三 范式 是 必须 遵守 的 规则 。 当 然 ， 三 范式 最 大 的 问题 在 于 查询 时 通常 需要 join 很 多 表 ， 而 这 会 导致 
查询 效率 很 低 。 所 以 有 时 候 基 于 性 能 考虑 ， 我 们 需要 有 意 违 反 三 范式 ， 适 度 地 做 元 余 ， 以 达到 提高 查询 效率 的 目的 。 注 意 ， 这 里 的 有 反 范 式 是 适度 的 ， 必 须 为 这 种 做 法 提供 充分 的 理由 。 


选择 字段 的 一 般 原 则 是 保 小 不 保 大 ， 能 用 占用 字 节 少 的 字段 就 不 用 大 字段 。 比 如 ， 主 键 ， 强 烈 建议 用 int 整 型 ,不 用 guid， 为 什么 ? 省 空间 啊 。 空 间 是 什么 ? 空间 就 是 效率 ! 按 4 个 字 节 和 按 32 个 字 节 定 
位 一 条 记录 ， 谁 快 谁 慢 太 明显 了 。 涉 及 几 个 表 做 join 时 ， 效 果 就 更 明显 了 。 更 小 的 字段 类 型 占用 的 内 存 就 更 少 ， 占 用 的 磁盘 空间 和 磁盘 MO 也 会 更 少 ， 而 且 还 会 占用 更 少 的 带宽 。 因 此 ， 在 日 常 选 择 字段 时 必 


习 
mo 


须要 遵守 这 一 规则 。 


5.3 “采用 合适 的 锁 届 制 


MySQL 的 锁 有 以 下 几 种 形式 : 
; 锁定 粒度 大 ， 发 生 锁 冲 突 的 概率 最 高 ， 并 发 度 最 低 。MyYISAM 引 擎 属于 这 种 类 型 。 
45 BAR: 开销 大 ， 加 锁 慢 ; 会 出 现 死 锁 ; 锁定 粒度 最 小 ， 发 生 锁 冲突 的 概率 最 低 ， 并 发 度 也 最 高 。InnoDB 引 擎 属于 这 种 类 型 。 


ROM: 开销 和 加 锁 时 间 界 于 表 锁 和 行 锁 之 间 ; 会 出 现 死 锁 ; 锁定 粒度 界 于 表 锁 和 行 锁 之 间 ， 并 发 度 一 般 。NDB 属 于 这 种 类 型 。 


5.4 ”选择 合适 的 事务 隔离 级 别 


5.4.1 事务 的 概念 

事务 处 理 可 以 确保 除非 事务 性 单元 内 的 所 有 操作 都 成 功 完成 ， 否 则 不 会 永久 更 新 面向 数据 的 资源 。 通 过 将 一 组 相关 操作 组 合 为 一 个 要 么 全 部 成 功 要 么 全 部 失败 的 单元 ， 可 以 简化 错误 恢复 并 使 应 用 程序 
更 加 可 靠 。 一 个 逻辑 工作 单元 要 成 为 事务 ， 必 须 满足 所 谓 的 ACID( 原 子 性 、 一 致 性 、 隔 离 性 和 持久 性 ) 属 性 : 

` 原子 性 

对 于 数据 修改 ， 要 么 全 都 执行 ， 要 么 全 都 不 执行 。 


. 隔离 性 


在 所 有 的 操作 没有 执行 完毕 之 前 ， 其 他 会 话 不 能 够 看 到 中 间 改 变 的 过 程 。 
.一致 性 

事务 发 生前 和 发 生 后 ， 根 据 数据 的 规则 ， 总 额 应 该 匹配 。 

> 持久 性 

事务 发 生前 和 发 生 后 ， 根 据 数据 的 规则 ， 总 额 应 该 匹配 。 


为 了 帮助 大 家 进一步 理解 事务 的 含义 ， 这 里 将 用 一 个 例子 来 说 明 ， 相 信和 会 比 专业 术语 看 起 来 容易 明白 得 多 。 大 家 都 在 ATM 取 款 机 取 过 钱 吧 ” 比 如 ， 我 一 次 取出 2000 元 ， 当 我 按 确定 等 钱 出 来 的 时 候 ， 取 
款 机 主板 烧 了 ， 此 时 如 果 数 据 库 没有 保障 机 制 ， 那 么 我 就 损失 掉 了 2000 元 ， 所 以 为 了 避免 这 种 问题 的 出 现 ， 在 我 取 钱 的 一 刹那 ， 若 取款 机 坏 掉 了 ， 我 这 个 取 钱 的 动作 会 自动 回 滚 到 先前 的 状态 ， 保 证 我 不 会 
亏损 ， 那 么 这 个 就 叫 作 事 务 。 要 么 就 成 功 ， 要 么 就 失败 。 


5.5 ”SQL 优 化 与 合理 利用 索引 


在 应 用 系统 的 开发 初期 ， 由 于 数据 库 的 数据 比较 少 ， 在 查询 SQL 语 句 ， 复 杂 视图 的 编写 等 方面 体会 不 出 SQL 语 句 各 种 写法 的 性 能 优 劣 情况 ， 但 是 如 果 将 应 用 系统 提交 实际 应 用 后 ， 随 着 数据 库 中 数据 的 
增加 ， 系 统 的 响应 速度 就 会 成 为 需要 解决 的 最 主要 问题 之 一 。 系 统 优化 中 一 个 很 重要 的 方面 就 是 SQL 语 句 的 优化 。 对 于 海量 数据 ， 劣 质 SQL 语 句 和 优质 SQL 语 句 之 间 的 速度 差别 可 以 达到 上 百倍 ， 可 见 ， 对 于 
一 个 系统 来 说 ， 不 是 简单 地 实现 其 功能 就 可 以 了 ， 而 是 要 写 出 高 质量 的 SQL 语 句 ， 提 高 系统 的 可 用 性 。 


5.6 my.cnf 配 置 文件 调 优 


在 MySQL 数 据 库 性 能 调 优 中 ， 首 先 要 考虑 的 就 是 Schema 设 计 ， 这 一 点 非常 重要 ， 一 个 糟糕 的 Schema 设 计 即 使 是 在 性 能 强劲 的 服务 器 上 运行 ， 也 会 表现 出 很 差 的 性 能 。 和 Schema 相 似 ， 查 询 语句 的 设 
计 也 会 影响 MySQL 的 性 能 ， 应 该 避免 写 出 低 效 的 SQL 查询 。 最 后 要 考虑 的 就 是 参数 优化 ，MySQL 数 据 库 的 默认 设置 性 能 非常 差 ， 仅 仅 起 一 个 功能 测试 的 作用 ， 不 能 在 生产 环境 中 运行 ， 因 此 要 对 一 些 参数 进 
行 调整 。 比 如 ， 无 法 使 用 索引 的 情况 下 进行 全 表 扫 描 、 全 索引 扫描 等 。 在 这 种 时 人 息 ，MySQL 会 按照 数据 的 存储 顺序 依次 读 取 数据 块 ， 每 次 读 取 的 数据 块 首先 会 暂 存 在 read_buffer_size 中 ， 当 buffer 空 间 被 
写 满 或 者 全 部 数据 读 取 结束 后 ， 表 将 buffer 中 的 数据 返回 给 上 层 调用 者 ， 以 提高 效率 。 


5.7 ”MySQL5.6 同 步 复 制 | 新 特性 详解 


继 MySQL5.5 实 现 半 同步 复制 后 ，MySQL5.6 又 对 其 进行 了 优化 与 改进 ， 其 中 有 两 个 地 方 较为 重要 : 


“ 第 一 点 对 运 维 人 员 来 说 应 该 是 一 件 大 喜事 ， 主 从 切换 后 ， 在 传统 的 方式 里 ， 需 要 找到 binlog 和 POS 点 ， 然 后 change master to 指向 ， 对 于 不 是 很 有 经 验 的 运 维 人 员 来 说 ， 往 往 会 找 错 ， 造 成 主 从 同步 复制 


报错 ， 在 MySQL5.6 里 ， 无 须 再 找 binlog 和 POS 上 点， 你 只 需要 知道 mastet 的 IP、 端 口 ， 账 号 密码 即 可 ， 因 为 同步 复制 是 自动 的 ，MySQL 会 通过 内 部 机 制 GTID 自 动 找 点 同步 。 


* 多 线程 复制 基于 库 。 在 之 前 的 版 本 里 ， 同 步 复制 是 单线 程 的 、 队 列 的 ， 只 能 一 个 个 执行 ， 在 MySQL5.6 里 ， 可 以 做 到 多 个 库 之 间 的 多 线程 复制 ， 例 如， 在 yourDB 库 里 ， 存 放 着 用 户 表 、 商 品 表 、 价 格 
表 、 订 单 表 ， 那 么 将 每 个 业务 表单 独 放 在 一 个 库 里 ， 这 时 就 可 以 做 到 多 线程 复制 ,但 一 个 库 里 的 表 ， 多 线程 复制 是 无 效 的。 


在 MySQL5.6 里 ， 会 涉及 一 些 新 名 词 ， 下 面 针 对 这 些 新 名 词 进行 解释 : 
.server_uuid: 服务 器 身份 JD。 在 第 一 次 启动 MySQL 时 ,会 自动 生成 一 个 server_uuid 并 写 入 到 数据 目录 下 auto.cnf 文 件 里 ， 官 方 不 建议 修改 。 并 且 server_uuid 跟 GTID 有 密切 联系 。 


下 面 是 auto.cnf 文 件 内 容 : 


[root@mysql5 6 data]# pwd 
/usr/local/mysql/data 
[root@mysql5 6 data]# cat auto.cnf 
[auto] 
server-uuid-b0869d03-d4a9-11e1-a2ee-000c290a6b8f 


|GTID: 全 局 事务 标识 符 。 使 用 这 个 功能 时 ， 每 次 事务 提交 都 会 在 binlog 里 生成 一 个 唯一 的 标示 符 ， 它 由 UUID 和 事务 ID 组 成 。 首 次 提交 的 事务 ID 为 1， 第 二 次 为 2， 第 三 次 为 3， 依 次 类 推 。 


对 于 事物 ID， 查 看 binlog， 会 看 到 如 图 5-115~ 图 5-118 所 示 的 内 容 。 


H at 2/6 
2120808 3:31:57 server id 25 end log pos 320 GTID [commitz7yes] 


SET @@SESSION. GTID NEXT- 'B0869D03-D449-11E1-A2EE-000C290A6BS8F : 1' /*!x*/: 


图 5-115 GTID:1 


# at 496 
#120808 3:39:36 server id 25 end log pos 540 GTID [commit-yes] 


SET @@SESSION. GTID NEXT- ' B0869D03-D449- 1 1E1-A2EE-000C290A6BS8F :2 /*! %/ ; 


图 5-116 GTID:2 


# at 710 
1120808 5:19:07 server id 25 end log pos 754 GTID [commit-ves] 


SET @@SESSION. GTID NEXT= 'B0869D03-D4A9-11E1-A2EE-000C290A6BS8F:3 /*!*/. 


图 5-117 GTID:3 


并 at 3IZ 


#120808 5:19:07 server id 25 end log pos 956 GTID [commit-ves] 
SET @@SESSION. GTID NEXT- 'B0869D03-D4A9- 1 1E1-A2EE-000C290A6BBF : 4' /* !x/ - 


图 5-118 GTID:4 


开启 GTID 时 ，slave 做 同步 复制 的 时 候 ， 无 须 找到 binlog 日 志和 POS 点 ， 直 接 change master to master auto_position=1 即 可 ， 它 会 自动 找 点 同步 。 
GTID 的 工作 流程 是 这 样 的 : 
1) 在 master 上 一 个 事务 提交 ， 并 写 入 binlog 里 。 


2) binlog 日 志 发 送 到 slave，slave 接 收 完 并 写 入 relay log 中 继 日 志 里 ，slave 读 取 到 这 个 GTID， 并 设置 gtid_next 的 值 。 例 如 : 


SET@@SESSION.GTID NEXT-'B0869D03-D4A9-11E1-A2EE-000C290A6B8F:3'; 


然后 告诉 slave 接 下 来 的 事务 必须 使 用 GTID， 并 写 入 到 它 自己 的 binlog 里 。 

3) slave 检 查 并 确认 这 个 GTID 没 有 被 使 用 ， 如 果 没有 被 使 用 ， 那 么 开始 执行 这 个 事务 并 写 入 到 它 自己 的 binlog 里 。 
4) 由 于 gtid_next 的 值 不 是 空 的 ，slave 不 会 尝试 去 生成 一 个 新 的 gtid， 而 是 通过 主 从 同步 来 获取 GTID。 

那么 ， 如 何 设置 GTID 方 式 的 主 从 同步 呢 ? 


答 : 在 master 和 slave 上 ， 需 要 同时 在 my.cnf 文 件 中 加 入 如 下 内 容 : 


log-bin = mysql-bin 

binlog format = row 

log slave updates 

gtid-mode = ON 

disable-gtid-unsafe-statements = ON 注 : MySQL5.6.10 2, disable-gtid-unsafe-statements 4 Jt € Aenforce-gtid-consistency = ON 


然后 ， 在 master 上 导出 : 


- 


mysqldump -uroot -p123456 -q --single-transaction -R -E --triggers 
--default-character-set-utf8 -B yourDB » ./yourDB.sql 


在 slave 上 导入 : 


mysql -uroot -p123456 < ./yourDB.sql 


之 后 做 指向 即 可 ， 如 下 所 示 : 


mysql» CHANGE master TO 

> master HOST = master-host, 
> master PORT = master-port, 
> master USER = repl-user, 

> master PASSWORD = repl-password, 
» master AUTO POSITION - 1; 


Qus 如 果 使 用 了 GTID， 那 么 就 不 能 再 使 用 传统 binlog 和 POS 方 式 。 


传统 change master to 模式 如 下 : 


CHANGE MASTER TO 

MASTER HOST-'master2.mycompany.com', 
MASTER USER-'replication', 

MASTER PASSWORD-'bigs3cret', 

MASTER PORT=3306, 

MASTER LOG FILE-'master2-bin.001', 


MASTER LOG POS-4, 
MASTER CONNECT RETRY-10; 


否则 会 报错 ， 如 图 5-119 所 示 。 


mysql> CHANGE MASTER TO MASTER HOST=’ 192. 168. 8.25’, MASTER USER-' repl', 
-> MASTER PASSWORD=’ repl', MASTER LOG FILE-' mysal-bin. 000001’ , 
-> MASTER LOG POS=120: 


ERROR 1776 (HYO00): Parameters MASTER LOG FILE, MASTER LOG POS, RELAY LOG FILE and RELAY LOG POS cannot be set when MASTER AUT 
O POSITION 1s active. 


图 5-119 不 支持 传统 change master to 模式 
GTID 的 局 限 性 : 


- GTID 同 步 复制 是 基于 事务 的 。 所 以 MyISAM 表 不 支持 ， 这 可 能 导致 多 个 GTID 分 配给 同一 个 事务 。 


: 对 CREATE TABLEhttp://www.hzcoutse.comytesoutceVteadBook?path=/opentesouftces/teach_ebook/uncompressed/15847/OEBPSVText/...SELECT 语 名 不 支持 。 因 为 该 语句 会 被 拆 分 成 cteate table 和 insett 两 
个 事务 ， 并 且 如 果 这 两 个 事务 被 分 配 了 同一 个 GTID， 将 会 导致 insett 被 备 库 忽略 掉 (如 图 5-120 所 示 ) 。 


mysql> create table t2 select * from tl; 


ERROR 1786 (HY000): CREATE TABLE ... SELECT is forbidden when DISABLE GTID UNSAFE STATEMENTS = 1. 
mysql> I 


图 5-120 不 支持 CREATE TABLEhttp://www.hzcourse.com/resource/readBook?path= /openresources/teach_ebook/uncompressed/15847/OEBPS/Text/...SELECTH 4] 


如 果 把 disable_gtid_unsafe_statements 参 数 关 闭 ， 启 动 mysql 时 会 报错 ， 也 就 是 说 开启 GTID 时 ，disable_gtid_unsafe_statements 参 数 必须 开启 (如 图 5-121 所 示 ) o 


m2 mysqld: 131227 15:02:55 [ERROR] --gtid-mode-O0N or UPGRADE STEP 1 requires --disable-gtid-unsafe-statements 
m2 mysqld: 131227 15:02:55 [ERROR] Aborting 


图 5-121 未 开启 disable_gtid_unsafe_statements 参 数 报错 信息 


. 不 支持 CREATE TEMPORARY TABLE, DROP TEMPORARY TABLE k REE (如 图 5-122 所 示 ) o 


mysql? create temporary table t2(id int); 

ERROR 1787 (HY000): When DISABLE GTID UNSAFE STATEMENTS = 1, the statements CREATE TEMPORARY TABLE and DROP TEMPORARY TABLE can be e 
xecuted in a non-transactional context only, and require that AUTOCOMMIT = 1. 

mysql? 


图 5-122 不 支持 创建 临时 表 
下 面 介 绍 一 下 多 线程 复制 基于 库 的 情况 。 
设置 slave_parallel_ workers 参 数 ， 开 启 基于 库 的 多 线程 复制 。 默 认 是 0， 不 开启 ， 最 大 并 发 数 为 1024 个 线程 。 


对 于 命令 “set global slave parallel workers=4;”， 当 设置 为 4 个 线程 时 ， 执 行 命令 show processlist， 你 会 发 现 有 4 个 Waiting for an event from Coordinator 线 程 (如 图 5-123 所 示 ) 。 


Connect y Waiting for an event Coordinator 
Connect 2 Waiting for an event Coordinator 
Connect 212 Waiting for an event Coordinator 


system Connect 212 Waiting for an event Coordinator 


system | Connect 2 Slave has read all relay log; waiting for the slave I/O thread to update it 


system j Connect ele Connecting to master 


root localhost Sleep 
NULL 


22 | root localhost 


show processlist | 


8 rows in set (0.00 sec) 


图 5-123 ”状态 信息 


下 面 将 用 Sysbench 分 别 对 两 个 库 进行 压力 测试 ， 如 下 所 示 : 


sysbench --test-oltp --mysql-table-engine-innodb -oltp-table-size=100000 
--max-requests-1000 --num-threads-16 --mysqi-host-localhost --mysql-port-3306 --mysqi-user-root --mysql-db-test --mysql-socket-/tmp/mysql.sock run 
sysbench --test-oltp --mysql-table-engine-innodb --oltp-table-size-100000 
--max-requests-1000 --num-threads-16 --mysql-host=localhost --mysql-port=3306 --mysql-user=root --mysql-db-testl --mysql-socket-/tmp/mysql.sock run 


然后 调用 命令 “select*from mysql.slave worker infoNG;" , (Am: 


mysql> select * from mysql.slave worker info\G; 
KKEKKKKKKKKKKKKKKKKKKKKKKKKK T4 row kkkxkxkxkxkxkxkxkxkxkxkxkkkkkkxkxkxkxkkkkxk 
master id: 165 
Worker id: 0 
Relay log name: 
Relay log pos: 0 
master log name: 
master log pos: 0 
Checkpoint relay log name: 
Checkpoint relay log pos: 0 
Checkpoint master log name: 
Checkpoint master log pos: 0 
Checkpoint seqno: 0 
Checkpoint group size: 64 
Checkpoint group bitmap: 
炎炎 火炎 火炎 火炎 大 大 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 类 25 row 大大 火炎 火炎 火炎 大 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 
master id: 165 
Worker id: 1 
Relay log name: 
Relay log pos: 0 
master log name: 
master log pos: 0 
Checkpoint relay log name: | 


Checkpoint relay log pos: 0 
Checkpoint master log name: 
Checkpoint master log pos: 0 
Checkpoint seqno: 0 
Checkpoint group size: 64 
Checkpoint group bitmap: 
类 炎炎 火炎 火炎 火炎 火炎 炎炎 火炎 大大 炎炎 火炎 类 大火 火炎 大 3. row 大 大 大 大 大 大 大 大 类 大 大 大 大 大 大 大 大 类 大 大 大 大 大 类 大 大 大 
master id: 165 
Worker id: 2 
Relay log name: ./mysql5 6-relay-bin.000009 
Relay log pos: 2091034. 
master log name: mysql-bin.000003 
master log pos: 2090832 
Checkpoint relay log name: ./mysql5 6- relay-bin.000009 
Checkpoint relay log pos: 2082941 
Checkpoint master log name: mysql-bin.000003 
Checkpoint master log pos: 2082739 
Checkpoint segno: 5 
Checkpoint group size: 64 
Checkpoint group bitmap: 0 
大 大 大 大 大 类 大 大 大 大 大 大 大 大 类 大 大 大 大 大 大 大 大 类 大 大 大 4. row 大 大 类 大 大 类 大 大 大 大 大 类 大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 
master id: 165 
Worker id: 3 
Relay log name: ./mysql5 6-relay-bin.000009 
Relay log pos: 2954634 
master log name: mysql-bin.000003 
master log pos: 2954432 
Checkpoint relay log name: ./mysql5 | 6-relay-bin.000009 
Checkpoint relay log pos: 2951772 
Checkpoint master log name: mysql-bin.000003 
Checkpoint master log pos: 2951570 
Checkpoint seqno: 1 
Checkpoint group size: 64 
Checkpoint group bitmap: 
4 rows in set (0.01 sec) 


可 以 看 到 ， 有 两 个 Worker_id 的 数值 在 不 断 变化 ， 也 就 是 说 多 线程 复制 就 开始 起 作用 了 。 


CUIRE 如 果 一 个 库 有 N 个 请 求 ， 那 么 不 会 使 用 多 线程 复制 ， 但 是 如 果 两 个 库 有 N 个 请 求 ， 那 么 会 使 用 多 


上 就 会 开启 多 线程 复制 ， 减 少 步 延 时 。2 个 库 slave 就 有 2 个 IO/SQL 线 程 ，3 个 库 slave 就 有 2 个 IO/SQL 线 程 ， 依 次 类 推 。 


此 外 ， 


relay log info repository-TABLE 
master info repository-TABLE 


会 将 master.info 和 relay.info 保 存在 表 中 ， 默 认 是 MylISAM 引 警 ， 官 方 建议 用 : 


alter table slave master info engine-innodb; 
alter table slave | relay | log . info engine-innodb; 
alter table slave worker info engine-innodb; 


在 改 为 InnoDB 引 区 后， 可 防止 表 损 坏 ， 在 损坏 后 也 可 自行 修复 。 


1.MySQL5.6 GTID 模 式 ， 同 步 复 制 报错 不 能 跳 过 解决 方法 


假设 同步 复制 报错 了 ， 信 息 如 下 : 


mysql» show slave status\G; 
大大 火炎 火炎 火炎 类 大 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 类 1. LOW KKEKKKKKKKKKKKKKKKKKKKKKKKKK 
slave IO State: Waiting for master to send event 
master Host: 192.168.8.25 
master User: repl 
master Port: 3306 
Connect Retry: 60 
master Log File: mysql-bin.000001 
Read master Log Pos: 552 
7 Relay Log File: M2-relay-bin.000002 
Relay Log Pos: 519 
Relay master Log File: mysql-bin.000001 
slave IO Running: Yes 
slave | SOL , Running: No 
Replicate _ Do DB: 
Replicate Ignore DB: mysql 
Replicate Do Table: 
Replicate Ignore Table: 
Replicate Wild Do Table: 
Replicate Wild Ignore Table: 


Last Errno: 1032 


线程 复制 。 


Skip Counter: 0 
Exec master Log Pos: 309 
Relay Log Space: 963 
Until Condition: None 
Until Log File: 
Until Log Pos: 0 
master SSL Allowed: No 
master SSL CA File: 
master | SSL | CA Path: 
master SSL Cert: 
master SSL , Cipher: 
master SSL Key: 
Seconds Behind master: NULL 
master SSL Verify | Server | Cert: No 
Last Errno: 0 
Last. IO Error: 
Last SQL Errno: 1032 


icis 


Last SQL Error: Could not execute Delete rows event on table test.test; 


Replicate Ignore Server Ids: 
E 7 master Server Id: 25 
master_ UUID: cf£716fda-74e2-1le2-b7b7-000c290a6b8F 
master Info File: /usr/local/mysql/data/master.info 
SQL Delay: 0 
SQL Remaining Delay: NULL 
slave SQL Running State: 
master Retry Count: 86400 
~ master Bind: 


Last IO Error Timestamp: 
Last SQL | Error Timestamp: 130611 23:07:02 
master SSL Crl: 
master SSL Cr] path: 
Retrieved Gtid Set: cf716fda-74e2-11e2-b7b7-000c290a6b8: 
Executed Gtid Set: 562935a3-74f5-11e2-b830-000c29ba57: 
cf716fda-74e2-11e2-b7b7-000c290a6b8f:1 
Auto Position: 1 


= 之 
211-3; 


Fh Fh 


1 row in set (0.02 sec) 


这 里 提示 删除 的 主键 不 存在 同步 报错 ， 由 于 是 测试 机 ， 于 是 直接 跳 过 


Last Error: Could not execute Delete rows event on table test.test; 


Can't 


可 能 地 把 一 个 库 中 的 表 按 照 业 务 逻 辑 拆 分 成 多 个 库 保 存 ， 这 样 在 写 操作 时 ，slave 


Can't find record in 


find record in 


'test', 


'test', Error code: 1032; handler error HA ERR K 


Error. code: 1032; handler error HA ERR. KEY NOT FOUNL 


mysql» set global sql slave skip counter-1; 
ERROR 1858 (HY000): sql slave skip counter can not be set when the server is running with 
GTID MODE = ON. Instead, for each transaction that you want to skip, generate an empty transaction with the same GTID as the transaction 


Qi 由 于 是 运行 在 GTID 模 式 下 ， 所 以 不 支持 sql_slave_skip_countet 语 法 ， 如 果 你 想 跳 过 ， 就 必须 把 事务 ID 设置 为 空 值 。 


Retrieved Gtid Set: cf716fda-74e2-11e2-b7b7-000c290a6b8f:1-2 
Executed Gtid Set: cf716fda-74e2-11e2-b7b7-000c290a6b8f:1 


根据 在 show slave stautsN\G 得 到 的 信息 ， 观 察 Retrieved Gtid Setff]Executed Gtid _Set 这 两 行内 容 ， 第 一 行 代表 接收 到 的 事务 ， 第 二 行 代表 已 经 执行 完 的 事务 。 也 就 是 说 在 执行 cf716fda-74e2- 
11e2-b7b7-000c290a6b8f:2 这 个 事务 时 报错 了 ， 这 时 ， 只 需 跳 过 这 个 错误 事务 就 可 以 了 ， 如 下 所 示 : 


ysql» stop slave; 

uery OK, 0 rows affected (0.07 sec) 

ysql» SET GTID NEXT-'cf716fda-74e2-11e2-b7077-000c290a65b8f :2'; 
uery OK, 0 rows affected (0.01 sec) 

ysql» begin;commit; 
uery OK, 0 rows affected (0.01 sec) 
uery OK, 0 rows affected (0.02 sec) 
ysql» SET GTID NEXT-"AUTOMATIC"; 
uery OK, 0 rows affected (0.02 sec) 
ysql» start slave; 
uery OK, 0 rows affected (0.10 sec) 


IOSIOSIQODOS3IOSIOS3 


然后 执行 “show slave status\G:;” 命 令 确认 一 下 : 


mysql> show slave status\G; 
炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 类 1. LOW KKEKKKKKKKKKKKKKKKKKKKKKKKKK 
slave IO State: Waiting for master to send event 
master Host: 192.168.8.25 
master User: repl 
master Port: 3306 
Connect Retry: 60 
master Log File: mysql-bin.000001 
Read master Log Pos: 552 
Relay Log File: M2-relay-bin.000003 
Relay Log Pos: 448 
Relay master Log File: mysql-bin.000001 
slave IO Running: Yes 
slave SQL Running: Yes 
Replicate _ Do DB: 
Replicate Ignore DB: mysql 
Replicate Do Table: 
Replicate Ignore Table: 
Replicate Wild Do Table: 
Replicate Wild Ignore Table: 


Last Errno: 0 
Last Error: 
Skip Counter: 0 
Exec master Log Pos: 552 
Relay Log Space: 1260 
Until Condition: None 
Until Log File: 
Until Log Pos: 0 
master SSL Allowed: No 
master SSL CA File: 
master SSL CA Path: 
master SSL Cert: 
master SSL Cipher: 
master SSL Key: 
Seconds Behind master: 0 
master SSL Verify Server Cert: No 
Last IO Errno: 0 
t IO Error: 
Last SQL Errno: 0 
Last SQL Error: 


Replicate Ignore Server Ids: 
master Server Id: 25 

master UUID: cf716fda-74e2-11e2-b7b7-000c290a608f 

master Info File: /usr/local/mysql/data/master.info 

SQL Delay: 0 

SQL Remaining Delay: NULL 

slave SQL Running State: slave has read all relay log; waiting for the slave I/O thread to update it 
master Retry Count: 86400 
. master Bind: 


Last IO Error Timestamp: 
Last SQL | Error Timestamp: 
master SSL Crl: 
master SSL Cr] path: 
Retrieved Gtid Set: cf716fda-74e2-11e2-b7b7-000c290a6b8f:1-2 
Executed Gtid Set: 562935a3-74f5-11e2-b830-000c29ba57f2:1-3, 
cf716fda-74e2-11e2-b7b7-000c290a6b8f:1-2 
Auto Position: 1 


1 row in set (0.02 sec) 


K! 已 经 跳 过 去 了 ， 同 步 复 制 正常 。 


2.MySQL5.6 GTID 模 式 转 为 传统 模式 


要 将 MySQL5.6 GTID 模 式 转 为 传统 模式 ， 首 先 要 在 my.cnf 配 置 文件 里 注释 掉 以 下 参数 ， 并 重启 MySQL 数 据 库 : 


fgtid-mode = ON 
#enforce-gtid-consistency = ON 


由 于 之 前 是 GTID 同 步 复制 模式 ， 现 在 要 转 为 传统 模式 ， 因 此 会 报错 ， 如 下 所 示 : 


mysql» CHANGE master TO 

MASTER HOST='192.168.8.25', master USER-'repl', 

-> MASTER PASSWORD-'repl', master LOG FILE-'mysql-bin.000001', 
-» MASTER LOG POS-120; 
RROR 1776 (HY000): Parameters master LOG FILE, master LOG POS, 
ELAY LOG FILE and RELAY LOG POS cannot be set when E 
MASTER | AUTO | POSITION is active. 


E E 


zB 


那么 ， 我 们 要 使 用 一 个 技巧 : 


mysql» change master to MASTER AUTO POSITION = 0; 
Query OK, 0 rows affected (0.19 sec) 

mysql» CHANGE MASTER TO 
MASTER HOST-'192.168.8.25', MASTER USER-'repl', MASTER PASSWORD-'repl', MASTER LOG FII 
Query OK, 0 rows affected, 2 warnings (0.16 sec) 


E-'mysql-bin.000001', MASTER LOG POS=120; 


这 样 就 顺利 执行 了 。 


第 6 章 ”备份 与 恢复 


随 着 办 公 自 动 化 和 电子 商务 的 飞速 发 展 ， 企 业 对 信息 系统 的 依赖 性 越 来 越 高 ， 数 据 库 作 为 信息 系统 的 核心 担当 着 重要 的 角色 。 尤 其 是 在 一 些 对 数据 可 靠 性 要 求 很 高 的 行业 如 银行 、 证 券 、 电 信 等 ， 如 果 
发 生意 外 停机 或 数据 丢失 ， 损 失 会 十 分 惨重 。 对 此 ， 数 据 库 管理 员 应 针对 具体 的 业务 要 求 制定 详细 的 数据 库 备 份 与 灾难 恢复 策略 ， 并 通过 模拟 故障 对 每 种 可 能 的 情况 进行 严格 测试 ， 只 有 这 样 才能 保证 数据 
的 高 可 用 性 。 数 据 库 的 备份 是 一 个 长 期 的 过 程 ， 而 恢复 只 在 发 生 事故 后 进行 ， 恢 复 可 以 看 做 是 备份 的 逆 过 程 ， 恢 复 程 度 的 好 坏 很 大 程度 上 依赖 于 备份 的 情况 。 此 外 ， 数 据 库 管理 员 在 恢复 时 采取 的 步骤 正确 


与 否 也 会 直接 影响 最 终 的 恢复 结果 。 

MySQL 备 份 种 类 可 分 为 两 种 : 完全 备份 和 增 量 备份 。 

完全 备份 ， 是 指 对 某 一 个 时 间 点 上 的 所 有 数据 或 应 用 进行 的 一 个 完全 复制 。 实 际 应 用 中 就 是 用 一 盘 磁 带 对 整个 系统 进行 完全 备份 ， 包 括 其 中 的 系统 和 所 有 的 数据 。 这 种 备份 方式 最 大 的 好 处 就 是 只 要 用 
一 盘 磁 带 ， 就 可 以 恢复 丢失 的 数据 。 因 此 大 大 加 快 了 系统 或 数据 的 恢复 时 间 。 然 而 它 的 不 足 之 处 在 于 ， 各 个 全 备份 磁带 中 的 备份 数据 人 存在 大 量 的 重复 信息 ; 另外 ， 由 于 每 次 需要 备份 的 数据 量 相当 大 ， 因 此 
备份 所 需 的 时 间 也 较 长 。 


增 量 备份 ， 是 指 在 一 次 全 备份 或 上 一 次 增 量 备份 后 ， 以 后 每 次 的 备份 只 需 备 份 与 前 一 次 相 比 增加 或 被 修改 的 binlog 文 件 。 这 就 意味 着 ， 第 一 次 增 量 备份 的 对 象 是 进行 全 备 后 又 增加 和 修改 的 binlog 文 
件 ; 第 二 次 增 量 备 份 的 对 象 是 进行 第 一 次 增 量 备份 后 所 增加 和 修改 的 binlog 文 件 ， 依 次 类 推 。 这 种 备份 方式 最 显著 的 优点 就 是 : 没有 重复 的 备份 数据 ， 因 此 备份 的 数据 量 不 大 ， 备 份 所 需 的 时 间 很 短 。 但 增 
量 备 份 的 数据 恢复 是 比较 麻烦 的 。 您 必须 具有 上 一 次 全 备份 和 所 有 增 量 备份 的 磁带 (一 旦 丢失 或 损坏 其 中 的 一 盘 磁带 ， 就 会 造成 恢复 的 失败 ) ， 并 且 它 们 必须 沿 着 从 全 备份 到 依次 增 量 备份 的 时 间 顺 序 逐 个 
反 推 恢复 ， 因 此 这 就 极 大 地 延长 了 恢复 时 间 。 


按照 备份 方式 可 分 为 三 种 : 冷 备 份 、 热 备份 和 逻辑 备份 。 

冷 备 份 ， 此 时 数据 库 处 于 关闭 状态 ， 能 够 较 好 地 保证 数据 库 的 完整 性 。 

` 热 备份 ， 数 据 库 正 处 于 运行 状态 ， 这 种 备份 方法 依赖 于 数据 库 的 日 志文 件 。 

` 逻辑 备份 ， 使 用 mysqldump 命 令 从 数据 库 中 提取 数据 ， 并 将 结果 写 到 一 个 文件 上 ， 文 件 内 容 为 纯 文 本 的 SQL 语句 。 


一 般 情况 ， 在 生产 环境 中 会 将 MySQL 配 置 为 一 主 一 从 ， 为 了 避免 影响 业务 ， 建 议 在 slave 机 器 上 做 备份 ， 下 面 依 次 介绍 一 下 上 面 介绍 的 这 三 种 备份 与 恢复 方式 。 


6.1 冷 备份 

冷 备 份 一 般 用 于 非 核心 业务 ， 这 类 业务 一 般 都 允许 中 断 ， 冷 备份 的 特点 是 速度 快 ， 恢 复 时 也 最 为 简单 。 通常 通过 直接 复制 物理 文件 来 实现 冷 备 份 。 
1. 备 份 过 程 

第 一 步 ， 关 闭 MySQL 服 务 进程 。 命 令 如 下 : 

/etc/init.d/mysql stop 


第 二 步 ， 把 data 数 据 目 录 (包含 ibdata1) 和 日 志 目录 (包含 ib logfileO, ib logfile1, ib logfile2) 复制 到 磁带 机 或 者 本 地 的 另 一 块 硬盘 里 。 


第 一 步 ， 用 复制 的 数据 目录 和 日 志 目 录 著 换 原 有 的 目录 。 


第 二 步 ， 启 动 MySQL 服 务 进程 。 命 令 如 下 : 


/etc/init.d/mysql start 


6.2 ”逻辑 备份 


逻辑 备份 一 般 用 于 数据 迁移 或 者 数据 量 很 小 时 ， 逻 辑 备 份 采 用 的 是 数据 导出 的 备份 方式 。 


1. 备 份 过 程 
如 果 需 要 导出 所 有 数据 库 ， 命 令 如 下 : 


mysqldump -q --single-transaction -A > all.sql 


如 果 只 是 要 导出 其 中 的 某 几 个 数据 库 ， 则 采用 如 下 命令 : 


mysqldump -q --single-transaction -B testl test2 > testl test2.sql 


如 果 要 导出 的 是 一 个 库 中 的 某 几 个 张 表 ， 可 采用 如 下 命令 : 


mysqldump -q --single-transaction -B testl test2 > testl test2.sql 


在 只 需要 导出 表 结 构 的 时 候 ， 采 用 如 下 命令 : 


mysqldump -q -d --skip-triggers 


在 只 需要 导出 人 存储 过 程 的 时 候 ， 采 用 如 下 命令 : 


mysqldump -q -Rtdn --skip-triggers 


如 果 只 需要 导出 触 友 器 ， 可 采用 如 下 命令 : 


mysqldump -q -tdn --triggers 


只 需要 导出 事件 时 ， 采 用 如 下 命令 : 


mysqldump -q-Etdn --skip-triggers 


只 需要 导出 数据 时 ， 采 用 如 下 命令 : 


mysqldump -q -single-transaction --skip-triggers -t 


要 想 在 线 建立 一 台新 的 slave， 请 采用 如 下 命令 : 


mysqldump -q --single-transaction --master-data-2 -A > all.sql 


过 以 下 命令 来 实现 : 


- 


MySQL -uroot -p123456 «all.sql 


或 者 登录 到 MySQL 里 ， 执 行 “source all.sgl;" , 


6.3 WES AER 


热 备份 的 方式 也 是 直接 复制 数据 物理 文件 ， 和 冷 备 份 一 样 ， 但 热 备 份 可 以 不 停机 直接 复制 ， 一 般 用 于 7x 24 小 时 不 间断 的 重要 核心 业务 。 MySQL 社 区 版 的 热 备 份 工 具 InnoDB Hot Backup 是 付费 的 ， 只 
能 试用 30 天 ， 只 有 购买 企业 版 才 可 以 得 到 永久 使 用 权 。Percona 公 司 发 布 了 一 个 xtrabackup 热 备份 工具 ， 和 官方 付费 版 的 功能 一 样 ， 支 持 在 线 热 备份 (备份 时 不 影响 数据 读 写 ) ， 是 商业 备份 工具 InnoDB 
Hot Backup 的 一 个 很 好 的 替代 品 。 下 面具 体 介绍 一 下 这 个 软件 的 使 用 方法 。 


xtrabackup 是 Percona 公 司 的 开源 项 目 ， 用 以 实现 类 似 InnoDB 官 方 的 热 备份 工具 InnoDB Hot Backup 的 功能 ， 它 能 非常 快速 地 备份 与 恢复 MySQL 数 据 库 。xtrabackup 中 包含 两 个 工具 : 
: xtrabackup 是 用 于 热 备份 nnoDB 及 XtraDB 表 中 数据 的 工具 ， 不 能 备份 其 他 类 型 的 表 ， 也 不 能 备份 数据 表 结 构 。 
- innobackupex 是 将 xtrabackup 进 行 封装 的 petl 脚 本 ， 它 提供 了 备份 MyISAM 表 的 能 力 。 由 于 innobackupex 的 功能 更 为 全 面 完善 ， 所 以 一 般 选 择 innobackupex 来 进行 备份 。 


下 面 来 看 看 xtrabackup 的 安装 方法 ， 安 装 命令 如 下 : 


#wget http://www.percona.com/redir/downloads/XtraBackup/LATEST/binary/Linux/i686/percona-xtrabackup-2.1.3-608.tar.gz 
# tar zxvf percona-xtrabackup-2.1.3-608.tar.gz 

# cd percona-xtrabackup-2.1.3/bin 

[root@Ml bin]£ 11 -h 


total 92M 
-rwxr-xr-x 1 root root 109K Apr 11 05:51 innobackupex 
lrwxrwxrwx 1 root roo 12 Jun 12 15:26 innobackupex-1.5.1 -» innobackupex 
-rwxr-xr-x 1 root root 2.0M Apr 11 05:51 xbcrypt 
2.0M Apr 11 05:51 xbstream 
5j 


-rwxr-xr-x 1 root roo 


( ( ¢ ( ¢ ( ( 


-rwxr-xr-x 1 root root 9.8M Apr 11 05: xtrabackup 
-rwxr-xr-x 1 root roo 13M Apr 11 05:34 xtrabackup 55 
-rwxr-xr-x 1 root root 66M Apr 11 05:44 xtrabackup 564 cp * /sbin/ 


说 明 : 

: innobackupex 是 要 使 用 的 备份 工具 。 

- xtrabackup 是 被 封装 在 innobackupex 之 中 的 ，innobackupex 运 行 时 需要 调用 它 。 
: xtrabackup 51 xtrabackup_55 是 xtrabackup 运 行 时 需要 调用 的 工具 。 

tat4ibd 是 以 tat 流 的 形式 产生 备份 时 用 来 打包 的 工具 。 


表 来 了 解 一 下 Innobackupex 参 数 ， 具 体 说 明 如 图 6-6 所 示 。 


—defaults-file 同 xtrabackup 的 -defaults-file 参数 ; 

—apply-log s ees xdi stis SAWEE | 

—copy-back Ri Gea SSH er Poe PES UI MySQL BESSERR datadir ; 

-remote-host 通过 ssh 将 备份 数据 存储 到 进程 服务 器 上 ; 

-stream 十 指定 的 数据 格式 棒 备 份 数 据 和 输出 到 村 2 佳 输 计 | ，; 

-impdir 当 指 定 了 -remote-host 或 -stream 参数 后 ， 事 务 日 志 需 要 临时 存储 在 本 地 磁盘 
KSSS INHA MySQL freebies ; 

-USe-memory KSSE ibbackup 使 用 的 ， 类 似 Xtrabackup 的 -use-memory 参数 ; 

—throttle=10S 同 xtrabackup 的 -throttle S8% ; 

-sleep 是 给 ibbackup (AA) , EEES 1M 数据 ， 岂 程 停止 拷贝 千 少 室 秒 ， 也 是 为 了 在 备份 
RASLE SH , Biko] ABsibbackup 的 手册 ; 

-compress wE eae Te , 寺 ibbackup , xtrabackup SZ Esa ; 

-include-REGEXP 对 xtrabackup 参数 -tables 的 封装 ， 也 支持 ibbackup ; 

—databases=LIST 列 出 需要 备份 的 databases ,如 果 没 有 择 定 该 参数 ,所 有 包含 MyISAM 和 InnoDB 表 
的 database 都 会 被 备份 ; 

-uncompress 解 讨 备份 的 数据 文件 ， 支 持 ibbackup , xtrabackup 还 没有 实现 该 功能 ; 

-user-NAME MySQL 数据 库 的 用 户 名 ; 

-password-WORD MySQL 数据 库 的 密码 ; 

-port=PORT MySQL 数据 库 监听 的 端口 ; 

—slave-info 备份 slave 数据 库 时 使 用 , S45 slave 的 相关 信息 记录 到 jibbackup slave info 文件 
便于 恢复 数据 时 使 用 CHANGE MASTER TO 继续 slave 的 同步 ; 

_socket=SOCKET MySQL 服务 器 的 socket TEHTE 


图 6-6 ”Innobackupex 参 数 说 明 
1. 全 量 备份 (不 加 --databases， 默 认 全 部 数据 库 ) 


进行 全 量 备 份 的 命令 如 下 : 


innobackupex --user-root  --password-123456  --defaults-file-/etc/my.cnf /bak/ 


BA: 
| —user: 指定 连接 数据 库 的 用 户 名 。 
. password: 指定 连接 数据 库 的 密码 。 
: --defaults-file: 指定 数据 库 的 配置 文件 。 
/bak/: 是 备份 文件 的 存放 位 置 。 


备份 成 功 后 会 提示 : 


innobackupex: Backup created in directory '/bak/2013-06-12 15-40-00' 

E MySQL binlog position: filename 'mysql-bin.000001', position 552, gtid executed cf716fda-74e2-11e2-b7b7-000c290a6b8f:1-2 
130612 15:41:27  innobackupex: Connection to database server closed 7 

130612 15: i :27  innobackupex: completed OK! 


并 且 会 记录 当前 binlog 的 文件 名 和 position 点 ， 以 方便 同步 复制 用 。 
2. 全 量 恢复 

全 量 恢复 的 操作 步骤 如 下 : 

1) 停止 MySQL 数 据 库 。 命 令 如 下 : 


MySQL 4 /etc/init.d/mysql stop 


2) 删除 老 数据 库 中 的 数据 文件 和 事务 日 志文 件 。 


注意 : 如 果 没 有 删除 ， 恢 复 时 将 报错 。 报 错 信息 如 下 : 


Original data directory '/usr/local/mysql/data' is not empty! at /sbin/innobackupex line 582. 


3) 将 备份 文件 中 的 日 志 应 用 到 备份 文件 中 的 数据 文件 上 ， 命 令 如 下 : 


innobackupex --defaults-file-/etc/my.cnf --apply-log /bak/2013-06-12 15-40-00 


事务 日 志 恢 复 成 功 后 


百 会 提示 : 


xtrabackup: 


130612 15:51:28 


starting shutdown with innodb 
InnoDB: FTS optimize thread exiting. 7 
InnoDB: Starting shutdownhttp://www.hzcourse.com/resource/readi 
InnoDB: Shutdown completed; log sequence number 3143306391 
innobackupex: completed OK! 


fast shutdown = 1 


4) 将 备份 文件 中 的 数据 恢复 到 数据 库 中 ， 


innobackupex --de 


faults- 


file=/etc/my.cnf 


命令 如 下 : 


--copy-back /bak/2013-06-12 15-40-00/ 


Book?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 


物理 文件 和 事务 日 志 恢复 成 功 后 会 提示 : 


innobackupex: Starting to copy InnoDB system tablespace 

innobackupex: in '/bak/2013-06-12 15-40-00' 

innobackupex: back to original InnoDB data directory '/usr/local/mysql/data' 
innobackupex: Copying '/bak/2013-06-12 15-40-00/ibdatal' to 
'/usr/local/mysql/data/ibdatal' 

innobackupex: Starting to copy InnoDB undo tablespaces 

innobackupex: in '/bak/2013-06-12 15-40-00' 

innobackupex: back to '/usr/local/mysql/data' 

innobackupex: Starting to copy InnoDB log files 

innobackupex: in '/bak/2013-06-12 15-40- 00， 

innobackupex: back to original InnoDB log directory '/usr/] ocal/mysql/data' 
innobackupex: Copying '/bak/2013-06-12 15-40-00/ib logfilel' to 
'/usr/local/mysql/data' 

innobackupex: Copying '/bak/2013-06-12 15-40-00/ib logfile0' to 
'/usr/local/mysql/data' 

innobackupex: Finished copying back files. 

130612 15:59:11 innobackupex: completed OK! 

5) 数据 恢复 完成 之 后 ， 需 要 修改 相关 文件 的 权限 ， 命 令 如 下 : 


chown -R mysql.mysql /usr/local/mysql/data/ 


6) 重新 启动 MySQL 数 据 库 ， 命 令 如 下 : 


/etc/init.d/mysql start 


3. 备 份 到 远程 服务 器 


假设 : 


本 地 服务 器 IP: 192.168.8.25 


目标 服务 器 IP: 192.168.8.26 


采用 如 下 命令 进 


innobackupex --de 
root@192.168.8.26 


行 备份 : 


faults- 
cat " 


fFile=/etc/my.cni 
>" /bak/backup.tar 


f --stream=tar /usr/local/mysql/data | ssh 


备份 成 功 后 会 提示 : 


innobackupex: 


innobackupex: MySQL binlog position: 


130612 


6:16:42 
innobackupex: You must use -i 


Backup created in directory '/usr/local/mysql/data' 


filename 'mysql-bin.000001', position 151 
innobackupex: Connection to database server closed 
(--ignore-zeros) option for extraction of the 


tar stream. 


130612 16:16:42 innobackupex: completed OK! 
4. 全 量 恢复 
行 全 量 恢复 时 ， 其 操作 步骤 基本 和 前 面 的 普通 备份 恢复 类 似 。 
: 恢复 解压 缩 时 ， 必 须 使 用 -i 参 数 : 
tar -ixvf backup.tar 
解压 后 按 普通 备份 恢复 的 步骤 进行 恢复 即 可 。 
5. 增 量 备份 
行 增 量 备 份 的 前 提 是 必须 已 经 做 过 全 量 备 份 ， 步 骤 如 下 : 
1) 先进 行 全 量 备 份 ， 命 令 如 下 : 
innobackupex --defaults-file-/etc/my.cnf /bak/fullbak/ 


2) 再 进行 增 


量 备份 ， 


命令 如 下 : 


innobackupex --de 


faults- 


file=/etc/my.cnf 


--incremental-basedir-/bak/ 


--incremental /bak/incrementbak 
fullbak/2013-06-12 16-46-36/ 


备份 成 功 后 会 提示 : 


innobackupex: 


innobackupex: MySQL binlog position: 


130612 
130612 


16:59:56 
16:59:56 


Backup created in directory '/bak/incrementbak/2013-06-12 16-59-27' 
filename 'mysql-bin.000001', t: 
innobackupex: Connection to database server cl 
innobackupex: completed OK! 


osed 


position 637, 


gtid executed c25abacf-d336-11e2-9ed0-000c290a6508f:1-2 


入 到 备份 目录 ， 可 以 看 到 哪 份 是 全 量 备份 ， 哪 份 是 增 量 备份 ， 如 下 : 


[root@Ml bak]# cd fullbak/2013-06-12 16-46-36/ 

[root@M1l 2013-06-12 16-46-36]4 cat xtrabackup checkpoints backup type = full-backuped 
from lsn = 0 7 7 7 
to lsn = 3143306401 
last lsn = 3143306401 
compact = 0 
[root@Ml bak]# cd incrementbak/2013-06-12 16-59-27 / 
[root@M1 2013-06-12 16-59-27] # 

[root@M] n 06-12 16-59-27]4 cat xtrabackup checkpoints backup type = incremental 
from lsn = 3143306401 
to lsn = 3143308222 
last lsn = 3143308222 
compact = 0 

[root@M]1 2013-06-12 16-59-27]4$ 


6. 增 量 恢复 


进行 增 量 恢复 的 步骤 如 下 : 


1) 先 恢复 增 量 事务 日 志 ， 命 令 如 下 : 


innobackupex --apply-log --redo-only /bak/fullbak/2013-06-12 16-46-36/ 
--incremental-dir-/bak/incrementbak/2013-06-12 16-59-27/ 


2) 再 恢复 全 量 事务 日 志 ， 命 令 如 下 : 


innobackupex --apply-log /bak/fullbak/2013-06-12 16-46-36/ 


3) 将 备份 文件 中 的 数据 恢复 到 数据 库 中 ， 命 令 如 下 : 


innobackupex --copy-back /bak/fullbak/2013-06-12 16-46-36/ 


4) 数据 恢复 完成 之 后 ， 需 要 修改 相关 文件 的 权限 ， 命 令 如 下 : 


chown -R mysql.mysql /usr/local/mysql/data/ 


5) 启动 MySQL 数 据 库 ， 命 令 如 下 : 


/etc/init.d/mysql start 


第 7 草 ”高 可 用 MHA 架 构 集群 管 


在 第 一 版 中 曾 介 绍 过 MMM (Multi-Master Replication Manager) 架构 ， 随 着 越 来 越 多 的 互联 网 金融 公司 使 用 MySQL 数 据 库 ， 对 数据 的 一 致 性 要 求 也 越 来 越 高 ， 这 便 促成 了 MHA (Master High 
Availability) 架构 的 诞生 。MHA 的 作者 是 Yoshinori Matsunobu， 目 前 就 职 于 Facebook， 它 与 MMM 架 构 都 是 采用 Perl 语 言 编写 的 ， 可 在 宕 机 的 时 间 内 (通常 为 10~30 秒 ) 完成 故障 切换 。 此 外 ， 还 支持 
在 线 切 换 ， 从 当前 运行 的 master 切 换 到 另 一 个 新 的 master 上 ， 只 需要 很 短 的 时 间 (为 0.5~2 秒 内 ) ， 此 时 仅 阻 塞 写 操作 ， 并 不 影响 读 操 作 ， 便 于 主机 的 硬件 维护 ， 现 在 国内 互联 网 公司 大 多 采用 这 种 高 可 用 
MHA 架 构 。 


7.1 _MHA 架 构 简 介 


MHA 架 构 和 MMM 架 构 有 什么 区 别 呢 ”最 大 的 区 别 在 于 : MHA 会 把 丢失 的 数据 在 每 个 save 节 点 上 补 齐 。 下 面 通过 一 幅 图 来 了 解 MHA 故 障 转移 的 工作 原理 ， 如 图 7-1 所 示 。 


从 图 7-1 可 以 看 到 ， 当 master 宕 机 时 ，MHA 管 理 机 会 试图 scp 丢 失 的 那 一 部 分 binlog， 然 后 把 该 binlog 拷 贝 到 最 新 的 slave 机 器 上 ， 再 补 齐 差异 的 binlog 并 应 用 。 当 最 新 的 slave 补 齐 数 据 后 ， 再 把 它 的 
relay-log 拷 贝 到 其 他 的 slave 上， 以 识别 差异 并 应 用 。 至 此 ， 整 个 恢复 过 程 结 束 ， 从 而 保证 切换 后 的 数据 是 一 致 的 。 


下 面 通 过 图 7-2 更 容易 理解 整个 恢复 过 程 。 
MHA 官 网 网 站 为 : https://code.google.com/p/mysql-master-ha/, 


MHA 提 供 了 三 种 故障 转移 模式 ， 下 面 分 别 说 明 各 自 的 使 用 场景 。 


Writer IP P4 


id=102 ` | 
copy and apply events (id=102) start master 


start master 


P. 


slave 1 slave2 slave3 
| | | id=99 id=99 id=99 
Slave slave ) id-100 id=100 > id-400 
id=99 id=99 id=99 id=101 ^w !d7101,7 jg=101 
id=100 id=100 Id-100 ^ identify which events are not sent 
id=101 id=101 id=101 ly 
id=102 id=102 id=102 Apply lost events 
图 7-1 MHA 故 障 转移 的 工作 原理 
dead master latest slave other slaves 
恢复 步骤 : 
1 ) 识 别 最 新 的 slave， 并 试图 
从 死 掉 的 master 上 将 scp 那 
一 部 分 差异 的 binlog 执行 


完 ， 并 提升 为 新 的 master; 


lost t 
e" {Master Log File. Read Master Log Pos} from SHOW SLAVE 


STATUS (mysqld-bin.000013.12345) 
mysqlbinlog--start-position=12345 mysqld-bin.000013 mysqld-bin.000014... 


dead master latest slave Slave (1) 


4 ) scp 死 掉 Master. 上 那 2 ) 等 待 最 老 的 slave 把 中 继 


wait until SQL thread 


一 部 分 差异 的 binlog 日 志 relay-log 执行 完 ; 
并 执行 完 。 至 此 数 3 ) 从 最 新 的 slave 上 scp Fh executes all events 
据 全 部 恢复 一 致 。 一 部 分 差异 的 中 继 日 志 final Relay Log File, 


relay-log 并 执行 完 ; Relay Log Pos 


(11) Partial Transaction 


Master Log Flle 
Read Master Log Pos 
(12) Differential relay logs from each slave's read pos to the latest 


slave's read pos 
(X) Differential binary logs from the latest slave's read pos 
to the dead master's tail of the binary log 


图 7-2 ”缺失 binlog 补 齐 并 恢复 


7.2 ” MHA 配置 安装 


一 个 MHA 管 理 节 点 可 以 管理 多 组 集群 ， 如 图 7-3 所 示 。 
MHA 的 主要 功能 由 下 面 几 个 脚本 组 成 。 
: masterha manager: 复制 启动 MHA 进 程 。 
- mastetha master monitor: 监控 守护 进程 ， 判 断 mastet 是 否 前 溃 。 
: masterha master switch: 监控 守护 进程 ， 将 故障 的 mastet 进 行 转移 。 
: filter_mysqlbinlog: 该 脚本 在 新 版 本 里 废弃 掉 了 。 
: purge_relay_logs: 删除 sql_thread 线 程 执 行 完 的 relay logo 
- save binary logs: 保存 和 拷贝 死 掉 的 master 上 的 binlog。 
- apply. diff relay logs: 识别 差异 binlog 和 telay log 并 应 用 。 


MHA 配 置 环境 如 下 。 


manager 


MySQL-MasterHA-Manager 
- master monitor 
- master switch 


-masterha manager 


slavel slave2 
图 7-3 管理 多 套 MHA 集 群 
MHA 管 理 节点 : 192.168.17.131。 
master: 192.168.17.128, 
slave1: 192.168.17.129, 
slave2: 192.168.17.130, 
VIP: 192.168.17.100, 
1.MHA 架 构 的 安装 
下 面 介绍 MHA 架 构 的 安装 过 程 。 
1) 设置 host 解 析 。4 台 服务 器 的 配置 如 下 : 


# cat /etc/hosts 
192.168.17.128 


i ] 
192.168.17.130 slave2 
1 1 17 


slave3 


MySQL-MasterHA-Node 


- save binary logs 


- apply diff relay logs 
-filter mysqlbinolg 
- purge relay logs 


2) 建立 MHA 管 理 账号 。 创 建 MHA 监 控 账 号 的 命令 如 下 : 


BY '123456'; 


oO 


GRANT ALL PRIVILEGES ON *.* TO 'admin'G'$' IDENTIFIE 


创建 主 从 复制 账号 的 命令 如 下 : 


GRANT REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'repl'G'$' IDENTIFIED BY 'repl'; 


3) 安装 MHA-mha4mysql-manager 和 mha4mysql-node。 
在 RHEL/CentOS 6 上 的 安装 步骤 如 下 。 


首先 在 MHA 管 理 节点 、master、slave 上 均 安装 perl 依 赖 包 ， 安 装 命令 为 : 


# yum install perl-DBD-MySQL perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager 


如 果 你 没有 找到 rpm 包 ， 则 要 安装 epel 源 ， 命 令 如 下 : 


# rpm -ivh epel-release-6-8.noarch.rpm 


然后 在 管理 节点 安装 MHA 管 理 和 客户 端 安装 包 ， 命 令 如 下 : 


tar zxvf mha4mysql-node-0.56.tar.gz 
cd mha4mysql-node 

perl Makefile.PL 

make 
make install 
tar zxvf mha4mysql-manager-0.56.tar.gz 
cd mha4mysql-manager 

perl Makefile.PL 

make 
make install 


SHE He HE HE db He db SHE HE HE 


最 后 ， 在 master 和 slave 节 点 中 安装 MHA 客 户 端 安装 包 ， 命 令 如 下 : 


tar zxvf mha4mysql-node-0.56.tar.gz 
cd mha4mysql-node 
perl Makefile.PL 
make 
make install 


=E He He He 2b 


4) 公私 钥 认 证 ， 打 通 SSH 无 密码 远程 连接 ， 在 管理 节点 、master 和 slave 上 均 执 行 如 下 命令 。 


# ssh-keygen 

# ssh-copy-id '-p 22 root8192.168.17.128' 
# ssh-copy-id '-p 22 root8192.168.17.129' 
# ssh-copy-id '-p 22 root8192.168.17.130' 
# ssh-copy-id '-p 22 root8192.168.17.131' 


Qua 如 果 你 的 ssh 端 口 不 是 22， 修 改 -p 22 为 你 自己 定义 的 端口 。 
5) 在 slave 机 器 上 设置 只 读 权 限 ， 并 且 关 闭 自动 清除 执行 完毕 后 的 中 继 日 志 (relay log) 。 


将 以 下 参数 加 入 my.cnf 里 : 


[mysqld] 
read only = 1 
relay log purge = 0 


全 注意 设置 fead_only (Ad) 模式 的 目的 是 防止 在 slave 上 被 人 工 误 写 入 数据 ， 保 证 主 从 数据 的 一 致 性 。 
关闭 自动 清除 执行 完毕 后 的 中 继 日 志 的 目的 是 假如 一 台 从 库 没有 接受 完 主 库 的 binlog， 那 么 可 以 通过 MHA 把 最 新 的 slave 上 的 中 继 日 志 发 送 到 最 老 的 slave E, 识别 差异 中 继 日 志 并 补 齐 数据 。 


可 以 通过 定时 任务 来 实现 上 述 功能 ， 该 任务 写 入 crontab 里 ,例如 ， 想 要 每 天 凌晨 5 点 清除 中 继 日 志 ， 那 么 可 以 这 样 : 


# crontab -1 
05 * * * /usr/local/mysql/bin/mysql -S /tmp/mysql.sock -uroot -p123456 -e "set global relay log purge = 1;flush logs;set global relay log purge = 0;flush logs;" 


6) 配置 MHA 监 控 、 管 理 服务 。 


在 MHA 管 理 机 中 创建 app1.cnf 配 置 文件 ， 内 容 如 下 : 


# cat /etc/appl.cnf 
[server default] 

manager workdir-/var/log/masterha/ 
remote workdir-/var/log/masterha/ 


以 上 参数 用 来 定义 MHA 的 管理 目录 ， 以 便 存放 日 志 。 


设置 ssh 账 号 和 端口 ， 命 令 如 下 : 


ssh user=root 
ssh port=22 


设置 MHA 的 管理 账号 和 密码 ， 命 令 如 下 : 


user-admin 
password-123456 


设置 主 从 复制 的 账号 和 密码 ， 命 令 如 下 : 


repl user-repl 
repl password-repl 


如 果 你 的 环境 是 链 式 复制 架构 ， 比 如 A-B-C， 那 么 设置 multi tier slave=1， 如 下 : 


multi tier slave-1 


然后 ， 每 隔 1 秒 监测 一 次 ， 命 令 如 下 : 


ping interval-] 


以 下 命令 可 定义 故障 切换 和 在 线 切换 。 


ping type- =CONNECT 
master _ip_ 


为 了 防止 网 络 拌 动 误 切 换 ， 造 成 数据 


failover script-/usr/local/bin/master ip { 
master ip online change script-/usr/local/bin/master ip online change 


failover 


不 一 致 ， 可 采用 如 下 命令 : 


secondary check script-/usr/local/bin/masterha secondary check -s 


192.168.17.131 


--master 1p-192.16B8.17.128 --master port-3306 


M2 JAHRES 
mite 


其 实现 采用 的 是 投票 机 制 ， 


接 MySQL 主 库 ， 则 不 会 切换 。 


理 机 无 法 ping 通 或 无 法 连接 MySQL 主 库 时 ， 


-s 192.168.17.130 --user-root --master host=master 


会 试图 从 slave2 机 上 去 ping 通 和 连 


由 于 masterha_secondary_check 脚 本 写 死 了 端口 ， 如 果 你 的 SSH 端 口 不 是 22， 则 要 手工 修改 ssh 端 口 ， 如 下 : 


$ssh user = Spook 
$ssh port - 62222 
Smaster port = 3306 


unless ($ssh user); 
unless ($ssh port); 
unless ($master port); 


默认 不 会 在 slave 存 在 故障 的 情况 下 (SQL Thread 已 经 停止 出 错 ) 进 


[serverl] 
ignore fail=0 


默认 情况 下 ， 当 check repl delay=1 时 ， 若 一 个 slave 同 步 延 迟 超过 100M Brelay log， 则 MHA 在 进 


check repl delay = 1 


i&& f check repl delay=0, MHA 


以 下 参数 很 简单 ， 这 里 不 多 加 以 介绍 


hostname=master 
ip-192.168.17.128 

port=3306 

ssh Port=22 

master binlog dir=/data/logs 
[server2] i 
ignore fail-0 

check repl _delay =] 
hostname-slave] 
ip-192.168.17.129 

port=3306 

ssh port-22 

master binlog dir-/data/logs 
[server3] 
ignore fail-0 

check repl delay - 1 
hostname-slave2 
ip-192.168.17.130 

port=3306 

ssh port=22 

master binlog dir-/data/logs 


7) 在 master 机 器 (192.168.17.128) 上 手工 加 载 虚拟 vip， 命 令 如 下 : 


# cat vip ipaddr.sh 
#!/bin/bash 


忽略 被 选择 slave 上 的 同步 延迟 


ip addr add 192.168.17.100/32 dev ethO 


8) 局 动 MHA 监 控 进程 ， 命 令 如 下 : 


# nohup /usr/local/bin/masterha manager --conf-/etc/appl.cnf 
« /dev/null » /var/log/masterha/manager.log 


--ignore last fail 
2>&1 & 


over 


可 以 通过 以 下 命令 来 查看 是 否 成 功 启动 : 


# masterha check status --conf-/etc/appl.cnf 
is running (0:PING OK), 


(pid:24721) 


app! 


上 述 命令 代表 监控 进 


也 可 以 通过 如 下 命令 查看 状态 信息 。 


程 启动 成 功 ， 主 库 目 前 是 master 这 


master:master 


文 台 机 器 。 


# masterha master monitor --conf-/etc/appl.cnf 


Mon Nov 2 07:37:08 201 


5 = [info] 
master (192.168.17.128:3306) 
+--slavel (192.168.17.129:3306) 
+--slave2 (192.168.17.130:3306) 
Mon Nov 2 07:37:08 2015 - [info] 
Mon Nov 2 07:37:08 2015 - [info] 


--command-status --ssh user-root 
--orig master _ip=l 92.168 


(current master) 


行 master 的 故障 切换 。 当 设置 jgnore fail=1 时 ，MHA 会 在 所 有 的 机 器 有 问题 的 时 候 进 


Checking master ip 
/usr/local/bin/master ip : 


failover 


--orig master host-master 


.17.128 --orig master port-3306 


inet 192.168.17.100/32 scope 
INFO: VIP 192.168.17.100 
Mon Nov 2 07:37:08 2015 - 


[info] 


global ethO 


found on Master 


OK. 


failover script status: 


行 故障 切换 时 不 会 选择 这 个 slave 作 为 新 的 master， 


接 MySQL 主 库 ， 只 有 双方 都 连接 失败 ， 才 认定 MySQL 主 库容 机。 假如 有 一 方 可 以 连 


行 故障 切换 ， 如 下 : 


因为 恢复 需要 经 过 很 长 时 间 。 


9) 关闭 MHA 监 控 进 程 ， 命 令 如 下 : 


# masterha stop --conf-/etc/appl.cnf 
Stopped appl successfully. 


2.MHA 架 构 的 注意 事项 


使 用 M HA 架构 时 的 注意 事项 包含 以 下 几 方 面 。 
1) 防止 网 络 拌 动 误 切 换 ( 脑 裂 ) 造成 数据 不 一 致 ， 其 实现 原理 在 上 文中 已 介绍 ， 下 面 是 生产 环境 的 一 个 例子 ， 如 图 7-4 所 示 。 


2) VIP 没有 采用 Keepalived， 就 是 怕 存 在 网 络 抖动 问题 ， 如 果 出 现 脑 裂 ， 那 么 从 库 也 会 抢 寺 VIP， 由 于 主 库 和 从 库 都 持 有 VIP， 因 此 会 造成 |P 冲 突 ， 影 响 业 务 。Keepalived 只 能 实现 一 个 节点 监控 
master， 而 通过 自 带 的 脚本 可 以 实现 两 个 节点 监控 master。 


Fri Sep 18 17:08:35 2015 [warning] Connection failed 3 time(s).. 

Fri Sep 18 17:08:36 2015 [warning] Got error on MySQL connect: 2003 (Can't connect to MySQL server on '192. 168. 
111.77’ (4)) 

Fri Sep 18 17:08:36 2015 - [warning] Connection failed 4 time(s).. 

Fri Sep 18 17:08:38 2015 - [warning] HealthCheck: Got timeout on checking SSH connection to QCZ]-dbm! at /usr/loc 


al/share/perl5/MHA/HealthCheck.pm line 342. 

Monitoring server 192.168.111.76 is reachable, Master is not reachable from 192.168.111.76. OK. 

ssh: connect to host 192.168.111.79 port 60000: Connection timed out 

Monitoring server 192.168.111.79 is NOT reachable! 

Fri Sep 18 17:08:43 2015 - [warning] At least one of monitoring servers is not reachable from this script. This 
s likely a network problem. Failover should not happen. 


图 7-4 ”网络 拌 动 未 切换 


修改 的 以 下 两 个 脚本 (该 脚本 在 华章 网 站 下 载 ) ， 自 带 VIP: 


master ip i failover script=/usr/local/bin/master ip failover 
master ip online change script=/usr/local/bin/master ip online change 


# Hardcode stu now until the next MHA release passes SSH info in here 
MHA::ManagerUtil::exec ssh cmd( $new master ip, '22', "ip addr 


add 192.168.17. 100/32 dev eth0;arping -q -c 2 -U -I ethO 
192.168.17.100" undef ); 


Oza 只 需 把 脚本 里 的 VIP 地 址 换 成 你 自己 的 ，ssh 端 口 默认 是 22 换 成 你 自己 的 ，eth0 网 卡 换 成 你 自己 的 名 字 即 可 。 


3) mha 依 赖 ssh，ssh 有 时 会 出 现 连接 慢 或 者 不 通 的 情况 ， 如 何 解 决 ?设置 ssh 连 接 超时 时 间 (ssh timeout)， 分 别 如 图 7-5 和 图 7-6 所 示 。 


[root AR dbsl ]& grep 'ConnectTimeout  /etc/ssh/ssh config 


ConnectlTimeout 3 


[root8QCZ]-dbsl  ]& 


图 7-5 ”设置 ssh 连 接 超时 时 间 
从 图 7-5 和 图 7-6 中 可 以 看 出 ， 缩 短 了 连接 超时 的 时 间 ， 加 快 了 故障 切换 的 速度 。 
A) 死 掉 的 原 master 如 何 与 提升 为 新 的 master 建 立 同步 复制 关系 ? 


把 下 面 这 段 语 句 复制 下 来 ， 待 死 掉 的 原 master 恢 复 好 后 ， 执 行 该 语句 ， 即 可 与 新 提升 的 master 建 立 同 步 复制 关系 。 


# grep -i 'change' /var/log/masterha/manager.log 

Sat Sep 5 12:50:34 2015 - [info] All other slaves should start 
replication from here. Statement should be: CHANGE MASTER TO 
MASTER HOST-'QCZJ-dbm or THEO d 
MASTER PORT=3308, MASTER LOG FILE-'mysql-bin.000006', 
MASTER LOG POS- 326, MASTER | USER-' repl', 
MASTER PASSWORD-'xxx' 

Sat Sep 5 12:50:35 2015 - [info] Executed CHANGE MASTER. 


E) zi 四 


[root@slave? J]# time ssh -o ConnectTimeout-3 111.111.111.111 
ssh: connect to host 111.111.111.111 port 22: Connection timed ou 


Oms. 154s 
Umu. 039s 
7 Umu. 010s 
[root@slave? ]# 


[rootüslave2 “J# time ssh 111.111.111.111 
ssh: connect to host 111.111.111.111 port 22: Connection refused 


real Om21. 043s 
user OmU. 0244s 
Sys Om0. 010s 
[root@slave2 BiS 


图 7-6 ， ssh 连接 耗 时 时 间 
5) MHA 结 合 半 同 步 复制 (semi replication) 时 应 注意 些 什 么 ? 
互联 网 金融 公司 ， 数 据 不 丢失 是 第 一 位 的 。 开 启 半 同 步 复 制 势必 会 影响 性 能 ， 所 以 针对 这 种 情况 ， 将 DB 服务 器 通过 VLAN 划 分 为 一 个 独立 网 段 ， 与 应 用 相隔 离 ， 保 证 有 一 个 良好 的 网 络 环境 。 
此 外 ， 由 于 MHA 是 基于 ssh 公 私 钥 认 证 的 ， 有 些 公司 禁止 sh 互通 ， 以 避免 黑客 入 侵 后 ， 又 跳 到 其 他 DB 服务 器 里 ， 所 以 将 DB 与 应 用 隔离 是 必要 的 。 


6) MHA 0.56 最 新 版 本 不 支持 MariaDB 10 的 GTID 复 制 ， 仅 支持 甲骨 文 MySQL 的 GTID 复 制 。 


首先 启动 MHA 监 控 进 程 ， 命 令 如 下 : 


# nohup /usr/local/bin/masterha manager --conf-/etc/appl.cnf 
--ignore last failover < /dev/null > /var/log/masterha/manager.log 
2»&1 & 


这 里 要 注意 ， 如 果 在 默认 8 小 时 内 连续 出 现 故障 ， 则 不 会 切换 ， 可 以 通过 设置 --last_failover_minute=(minutes) 来 缩短 时 间 。 但 如 果 设 置 了 --ignore_last_failover 参 数 ， 那 么 该 步骤 是 被 忽略 的 ， 如 图 
7-7 所 示 。 


19:06:0 05 2015 - Lerror | L/usr/local /share, /perl5/WHA/WasterFailover.pm, 1n309] Las 
t failover was done at 2015/11/05 18:10:49. Current time is too early to do failover again. 


If you want to do failover, nara ly remove /var/log/masterha//appl. tal 
un aes script again. 
3:06:05 V015- [error] L/usr/local/share/perl5/MHA/ManagerUtil. pm, n177] Got ER 


— E 


ROR: at /usr/local/bin/masterha master switch line 53 


'[root@MHA mha_sh]# ff 


图 7-7 8 小 时 内 连续 故障 不 会 切换 


然后 通过 mysqladmin shutdown 命 令 关闭 主 库 的 mysqld 进 程 ， 到 MHA 管 理 机 的 /var/log/masterha 目 录 下 ， 使 用 tail-f manager.log 命 令 查看 切换 日 志 。 由 于 日 志 内 容 较 多 ， 下 面 逐 层 分 解 : 


Thu Nov 5 15:16:36 2015 - [warning] Got error on MySQL connect ping: DBI 
connect (';host-192.168.17.128;port-3306;mysql connect timeout-1', 'admin', http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Te: 
2013 (Lost connection to MySQL server at ‘reading initial communication packet', system error: 111) 
Thu Nov 5 15:16:36 2015 -[info] Executing SSH check script: save binary logs 
--command-test --start pos-4 --binlog dir=/data/logs 
--output file-/var/log/masterha//save binary logs test --manager version-0.56 
--binlog prefix=mysql-bin 7 
Thu Nov 5 15:16:36 2015 - [info] Executing secondary network check script: 
/usr/local/bin/masterha secondary check -s 192.168.17.131 -s 192.168.17.130 --user-root 
--master host=master --master ip-192.168.17.128 --master port-3306  --user-root 
--master host-master --master ip-192.168.17.128 --master port-3306 
--master user-admin 
--master password-123456 --ping type-CONNECT 
Creating /var/log/masterha if not existshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. ok. 
Checking output directory is accessible or nothttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 


Binlog found at /data/logs, up to mysql-bin.000004 

Thu Nov 5 15:16:36 2015 - [info] HealthCheck: SSH to master is reachable. 

Monitoring server 192.168.17.131 is reachable, Master is not reachable from 192.168.17.131. OK. 
Monitoring server 192.168.17.130 is reachable, Master is not reachable from 192.168.17.130. OK. 


Thu Nov 5 15:16:36 2015 - [info] Master is not reachable from all other monitoring servers. Failover should start. 

Thu Nov 5 15:16:37 2015 - [warning] Got error on MySQL connect: 2013 (Lost connection to MySQL server at 'reading initial communication packet', system error: 111) 

Thu Nov 5 15:16:37 2015 - [warning] Connection failed 2 time (s)http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 

Thu Nov 5 15:16:38 2015 - [warning] Got error on MySQL connect: 2013 (Lost connection to MySQL server at 'reading initial communication packet', system error: 111) 

Thu Nov 5 15:16:38 2015 - [warning] Connection failed 3 time (s)http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 

Thu Nov 5 15:16:39 2015 - [warning] Got error on MySQL connect: 2013 (Lost connection to MySQL server at 'reading initial communication packet', system error: 111) 

Thu Nov 5 15:16:39 2015 - [warning] Connection failed 4 time (s)http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 

Thu Nov 5 15:16:39 2015 - [warning] Master is not reachable from health checker!Thu Nov 5 15:16:39 2015 - [warning] Master master(192.168.17.128:3306) is not reachable! 

Thu Nov 5 15:16:39 2015 - [warning] SSH is reachable. 

Thu Nov 5 15:16:39 2015 - [info] Connecting to a master server failed. Reading configuration file /etc/masterha default.cnf and /etc/appl.cnf again, and trying to connect to 
Thu Nov 5 15:16:39 2015 - [warning] Global configuration file /etc/masterha default.cnf not found. Skipping. 

Thu Nov 5 15:16:39 2015 - [info] Reading application default configuration from /etc/appl.cnfhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompre 
Thu Nov 5 15:16:39 2015 - [info] Reading server configuration from /etc/appl.cnfhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OE 
Thu Nov 5 15:16:39 2015 - [info] GTID failover mode = OThu Nov 5 15:16:39 2015 - [info] Dead Servers: 

Thu Nov 5 15:16:39 2015 - [info] master (192.168.17.128:3306) 

Thu Nov 5 15:16:39 2015 - [info] Alive Servers: 

Thu Nov 5 15:16:39 2015 - [info] slavel (192.168.17.129:3306) 

Thu Nov 5 15:16:39 2015 - [info] slave2 (192.168.17.130:3306) 

Thu Nov 5 15:16:39 2015 - [info] Alive Slaves: 

Thu Nov 5 15:16:39 2015 - [info] slavel(192.168.17.129:3306) 

Version-10.1.8-MariaDB-log (oldest major version between slaves) log-bin:enabled 

Thu Nov 5 15:16:39 2015 - [info] Replicating from 192.168.17.128 (192.168.17.128:3306) 

Thu Nov 5 15:16:39 2015 - [info] slave2(192.168.17.130:3306) 

Version-10.1.8-MariaDB-log (oldest major version between slaves) log-bin:enabled 

Thu Nov 5 15:16:39 2015 - [info] Replicating from 192.168.17.128 (192.168.17.128:3306) 

Thu Nov 5 15:16:39 2015 - [info] Checking slave configurationshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 

Thu Nov 5 15:16:39 2015 - [info] Checking replication filtering settingshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text 
Thu Nov 5 15:16:39 2015 - [info] Replication filtering check ok.Thu Nov 5 15:16:39 2015 - [info] Master is down! 

Thu Nov 5 15:16:39 2015 - [info] Terminating monitoring script. 

Thu Nov 5 15:16:39 2015 - [info] Got exit code 20 (Master dead). 

Thu Nov 5 15:16:39 2015 - [warning] Global configuration file /etc/masterha default.cnf not found. Skipping. 

Thu Nov 5 15:16:39 2015 - [info] Reading application default configuration from /etc/appl.cnfhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompre 
Thu Nov 5 15:16:39 2015 - [info] Reading server configuration from /etc/appl.cnfhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OE 
Thu Nov 5 15:16:39 2015 - [info] Starting master failover. 


若 MHA 管 理 端 无 法 连接 主 库 192.168.17.128， 则 调用 如 下 命令 检查 128 主 库 的 binlog 文 件 是 否 存在 。 


save binary logs --command-test --start pos-4 --binlog dir-/data/logs --output 
not existshttp://www.hzcourse.com/resource/readl 
tory is accessible or nothttp://www.hzcourse.com/resource/readl 


Creating /var/log/mas 
Checking outpu 


OK . 
Binlog 


found a 


t dir 


ec 


t /data/logs, 


terha if 


up to mysql-bin.000004 


然后 调用 如 下 命令 ， 通 过 事先 定义 好 的 IP 地 址 192.168.17.131 和 192.168.17.130 同 时 访问 主 库 128 机 器 。 如 果 都 无 法 连接 ， 就 认定 128 主 库 宕 机 。 


masterha secondary check -s 192.168.17.131 
--user-root --master host-master --mas 
ter | port- 3306 
ter 1p-192.168.17.128 


一 -masSi 
一 -masSi 


--user-root 


-ması 


一 -masSi 


-s 192.168.17.130 
ter ip=192.168.17.128 
ter host=master 


--master | port- 3306 --master user-admin 


ter | password- 123456 --ping type-CONNECT 


file-/var/log/masterha//save binary logs test --manager version-0.56 --binlog pre! 
Book?path-/openresources/teach ebook/uncompressed/15847/0E 
Book?path-/openresources/teach ebook/uncompressed/15847/0E 


EBPS/Text/. 


-— 


ok. 
BPS/Text/.. 


fix=mysql-bin 


— 


工 


'BPS/Text/.. 


— 


I 


'«BPS/Text/. 


Book?path-/openresources/teach e 


续 看 下 面 的 日 志 : 
Thu Nov 5 15:16:39 2015 - [info] * Phase 1: Configuration Check Phasehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/0 
Thu Nov 5 15:16:39 2015 - [info] 
Thu Nov 5 15:16:39 2015 - [info] GTID failover mode = OThu Nov 5 15:16:39 2015 - [info] Dead Servers: 
Thu Nov 5 15:16:39 2015 - [info] master(192.168.17.128:3306) 
Thu Nov 5 15:16:39 2015 - [info] Checking master reachability via MySQL (double check)http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15€ 
Thu Nov 5 15:16:39 2015 - [info] ok. 
Thu Nov 5 15:16:39 2015 - [info] Alive Servers: 
Thu Nov 5 15:16:39 2015 - [info] slavel(192.168.17.129:3306) 
Thu Nov 5 15:16:39 2015 - [info] slave2 (192.168.17.130:3306) Thu Nov 5 15:16:39 2015 - [info] Alive Slaves: 
Thu Nov 5 15:16:39 2015 - [info] slavel(192.168.17.129:3306) Version=10.1.8-MariaDB-log (oldest major version between slaves) log-bin:enabled 
Thu Nov 5 15:16:39 2015 - [info] Replicating from 192.168.17.128 (192.168.17.128:3306) 
Thu Nov 5 15:16:39 2015 - [info] slave2(192.168.17.130:3306) Version=10.1.8-MariaDB-log (oldest major version between slaves) log-bin:enabled 
Thu Nov 5 15:16:39 2015 - [info] Replicating from 192.168.17.128 (192.168.17.128:3306) 
Thu Nov 5 15:16:39 2015 - [info] Starting Non-GTID based failover. 
Thu Nov 5 15:16:39 2015 - [info] 
Thu Nov 5 15:16:39 2015 - info] ** Phase 1: Configuration Check Phase completed. 

这 里 是 第 一 阶段 : 配置 检查 。 从 上 面 的 日 志 信息 中 可 以 得 知 死 掉 的 主 库 是 192.168.17.128， 人 存活 的 从 库 是 192.168.17.129/130， 版 本 为 10.1.8-MariaDB-log， 且 没有 开启 GTID 同 步 复制 。 
Thu Nov 5 15:16:39 2015 - [info] * Phase 2: Dead Master Shutdown Phasehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/0 
Thu Nov 5 15:16:39 2015 - [info] 

Thu Nov 5 15:16:39 2015 - [info] Forcing shutdown so that applications never connect to the current masterhttp://www.hzcourse.com/resource/readl 
Thu Nov 5 15:16:39 2015 - [info] Executing master IP deactivation script:Thu Nov 5 15:16:39 2015 - [info] /usr/local/bin/master ip failover 


--orig master host=master --orig | 
--command-s stopssh --ssh user-root 


Thu Nov 5 15:16:39 2015 - [info] do 
Thu Nov 5 15:16:39 2015 - [warning] 
down of the dead master. 

Thu Nov 5 15:16:39 2015 - [info] 


master ip-192.168. 


ne. 


17.128 --orig master port-3306 


shutdown script is not set. Skipping explicit shutting 


第 二 阶段 是 把 死 掉 的 master 从 虚拟 的 VIP (192.168.17.100) 中 移 除 。 


继续 看 下 面 的 日 志 : 

Thu Nov 5 15:16:39 2015 - [info] * Phase 3: Master Recovery Phasehttp://www.hzcourse.com/resource/readl 
Thu Nov 5 15:16:39 2015 - [info] 

Thu Nov 5 15:16:39 2015 -[info] * Phase 3.1: Getting Latest Slaves Phasehttp://www.hzcourse.com/resource/readi 
Thu Nov 5 15:16:39 2015 - [info] 

Thu Nov 5 15:16:39 2015 - [info] The latest binary log file/position on all slaves is 
mysql-bin.000004:327 

Thu Nov 5 15:16:39 2015 - [info] Latest slaves (Slaves that received relay log 

Thu Nov 5 15:16:39 2015 - [info] slavel (192.168.17.129:3306) 
Version=10.1.8-MariaDB-log (oldest major version between slaves) log-bin:enabled 

Thu Nov 5 15:16:39 2015 - [info] Replicating from 192.168.17.128 (192.168.17.128:3306) 
Thu Nov 5 15:16:39 2015 - [info] slave2 (192.168.17.130:3306) 
Version=10.1.8-MariaDB-log (oldest major version between slaves) log-bin:enabled 

Thu Nov 5 15:16:39 2015 - [info] Replicating from 192.168.17.128(192.168.17 
mysql-bin.000004:327 

Thu Nov 5 15:16:39 2015 - [info] Oldest slaves: 

Thu Nov 5 15:16:39 2015 - [info] slavel (192.168.17.129:3306) 
Version-10.1.8-MariaDB-log (oldest major version between slaves) log-bin:enabled 

Thu Nov 5 15:16:39 2015 - [info] Replicating from 192.168.17.128 (192.168.17.128:3306) 
Thu Nov 5 15:16:39 2015 - [info] slave2 (192.168.17.130:3306) 
Version=10.1.8-MariaDB-log (oldest major version between slaves) log-bin: enabled 

Thu Nov 5 15:16:39 2015 - [info] Replicating from 192.168.17.128 (192.168.17.128:3306) 


M 


第 三 阶段 是 进行 


续 看 下 面 的 日 志 : 
Thu Nov 5 15:16:39 2015 - [info] 
Thu Nov 5 15:16:39 2015 - [info] 
Thu Nov 5 15:16:39 2015 - [in 


* Phase 2: Dead Master Shutdown Phase completed. 


C 


I 


Book?pat 


* Phase 3.2: Saving Dead Master's 


fo] Fetching dead master's binary logshttp://www.hzcourse.com/resource/readi 


files to the latest): 


.128:3306)Thu Nov 5 15:16:39 2015 - 


h-/openresources/teach ebook/uncompressed/15847/0 


[inf 


Binlog Phasehttp://www.hzcourse.com/resource/readi 


o] The oldest binary log 


最 新 的 slave 数 据 恢 复 。 在 此 阶段 中 ， 首 先 要 检查 最 新 的 slave 和 最 老 的 slave 所 接收 的 master 上 的 binlog 是 否 都 为 mysql-bin.000004，position 位 置 是 否 为 327。 


Book?path-/openresources/teach ebook/uncompressed/15847/0 


'BPS/Text 


Book?path-/openresources/teach ebook/uncompressed/15847/0 


I 


feat 


'BPS/Text/.. 


Ef ss 


oe 


工 


Book?path-/openresources/teach ebook/uncompressed/15847/OE! 


'BPS/Text 


file/position on all slaves is 


Ti 


Thu Nov 5 15:16:39 
--start file=mysql 


--output file-/var/ 


2015 - 


log/mas! 


Creat 


[in 


-bin.000004 
terha//saved master binlog . 


ting /var/log/masterha i tshttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 


Concat binary/re] 
Dumping binlog 


ay logs 


Dumping ef 


Concat succeeded. 


fo] 


Executing command on the dead mastermaster (192.168.17 
start pos-327 --binlog dir-/data/logs 
from master 3306 20151105151639.binl 


.128:3306) : 


Thu Nov 5 15:16:40 
roo 


2015 - 


local:/var/ 
Thu Nov 5] 


2015 - 


[in 


[int 


fo] 


t@192.168.17.128:/var/log/masterha//saved master bin] 
log/masterha//saved 


5:1] 
Thu Nov 5 15:] 


15 - 


[int 


这 里 抓 取 了 主 库 上 未 发 送 的 binlog， 通 


save binary logs --command-save 


logs 


--start fi 
--binlog dir-/data/l 
--output file=/var/] 
--disable . 


le=mysql-bin.000004 


og/masterha//saved master binlog 
log bin-0 --manager version-0.56 


f no 
from mysql-bin. 
format description event 
fective binlog data f 


master binlog 


t exis 


og --handle raw binlog-1 


--disable 


save binary logs --command-save 


log bin-0 --manager version-0.56 


000004 pos 327 to mysql-bin.000004 


=y 


ta/logs/mysql-bin.000004 position 327 to tail 


rom /da 


scp from 


og from master 3306 20151105] 


EOF into /var/log/masterha//saved master binlog 


ok. 


from master 3306 20151105151639. binlog http: LN p 


51639.binlog to 


from master 3306 | 20151105151639.binl 
HealthCheck: SSH to slavel is reachable. 
HealthCheck: SSH to slave2 is reachable. 


Og Succeeded. 


from position 0 to 249http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 
(346) http: //www.hzcourse. 0055505 us c cos Ha 


过 如 下 命令 在 主 库 192.168.17.128 上 找到 名 为 mysql-bin.000004、position 位 置 为 327 的 binlog 日 志 ， 把 该 日 志 之 后 的 binlog 保 存 到 本 地 /var/log/masterha/ 目 
录 下 的 saved_master binlog from master 3306 20151105151639.binlog 文 件 中 。 


start pos=327 


from master 3306 20151105151639.binl 


og --handle raw binlog-1 


42%, saved master binlog from master 3306 20151105151639.binlog 文 件 拷贝 到 MHA 管 理 机 本 地 /var/log/masterha/ 目 录 下 。 


i 


Book?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Te 


tp://www.hzcourse.com/resource/readBook?path-/openresources/teac 
her. 


£ 


Book?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/. 


I 


续 看 下 面 的 日 志 : 

Thu Nov 5 15:16:41 2015 - [info] * Phase 3.3: Determining New Master Phasehttp://www.hzcourse.com/resource/readl 
Thu Nov 5 15:16:41 2015 - [info] 

Thu Nov 5 15:16:41 2015 - [info] Finding the latest slave that has all relay logs for recovering other slavesht 
Thu Nov 5 15:16:41 2015 - [info] All slaves received relay logs to the same position. No need to resync each ot 
Thu Nov 5 15:16:41 2015 - [info] Searching new master from slaveshttp://www.hzcourse.com/resource/readl 

Thu Nov 5 15:16:41 2015 - [info] Candidate masters from the configuration file: 

Thu Nov 5 15:16:41 2015 - [info] Non-candidate masters: 

Thu Nov 5 15:16:41 2015 -[info] New master is slavel (192.168.17.129:3306) 

Thu Nov 5 15:16:41 2015 - [info] Starting master failoverhttp://www.hzcourse.com/resource/read 

Thu Nov 5 15:16:41 2015 - [info] From: 
master(192.168.17.128:3306) (current master) 

t--slavel(192.168.17.129:33060) 

t--slave2 (192.168.17.130:3306)To: 

slavel (192.168.17.129:3306) (new master) 

t--slave2 (192.168.17.130:3306) 

Thu Nov 5 15:16:41 2015 - [info] 

Thu Nov 5 15:16:41 2015 - [info] * Phase 3.3: New Master Diff Log Generation Phasehttp://www.hzcourse.com/resource/read 
Thu Nov 5 15:16:41 2015 - [info] 

Thu Nov 5 15:16:41 2015 - [info] This server has all relay logs. No need to generate diff files from the latest slave. 
Thu Nov 5 15:16: 2015 - [info] Sending binloghttp://www.hzcourse.com/resource/readBook?pa! 

Thu Nov 5 15:16:41 2015 - [info] scp from 

local:/var/log/masterha//saved master binlog from master 3306 20151105151639.binlog to 
root@slavel:/var/log/masterha//saved master binlog from master 3306 20151105151639. binlog succeeded. 


Book?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 


Book?path-/openresources/teach ebook/uncompressed/15847/ 


zz 


th-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 


这 里 提升 一 个 新 的 master。 由 于 slave1 和 slave2 接 收 的 binlog 是 一 致 的 ， 数 据 都 是 最 新 的 ， 因 此 不 需要 做 数据 补 齐 操作 。 检 查 MHA 的 app1.cnf 配 置 文件 是 否 设置 了 candidate_master= 1 参数 ， 如 果 设 


置 了 ， 则 将 该 机 器 提升 为 新 的 master; 


如 果 未 设置 ， 则 按照 IP 的 顺序 ， 将 192.168.17.129 提 升 为 新 的 master。 


工 


com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 


manual recovery is needed. 
.17.129:3306) http: //www.hzcourse.com/resource/readi 


续 看 下 面 的 日 志 : 
Thu Nov 5 15:16:41 2015 - [info] * Phase 3.4: Master Log Apply Phasehttp://www.hzcourse. 
Thu Nov 5 15:16:41 2015 - [info] 
Thu Nov 5 15:16:41 2015 - [info] *NOTICE: If any error happens from this phase, 
Thu Nov 5 15:16:41 2015 - [info] Starting recovery on slavel (192.168 
Thu Nov 5 15:16:41 2015 - [info] Generating diffs succeeded. 
Thu Nov 5 15:16:41 2015 - [info] Waiting until all relay logs are applied. 
Thu Nov 5 15:16:41 2015 - [info] done. 
Thu Nov 5 15:16:41 2015 - [info] Getting slave statushttp://www.hzcourse.com/resource/read 
Thu Nov 5 15:16:41 2015 -[info] This slave(slavel)'s 
Exec Master Log Pos. 
Thu Nov 5 15:16:41 2015 - [info] Connecting to the target slave host slavel, 
Thu Nov 5 15:16:41 2015 -[info] Executing command: apply diff relay logs 
--command-apply --slave user-'admin' --slave host-slavel --slave ip-192.168.17.129 
--slave port-3306 
--apply files-/var/log/masterha//saved master binlog from master 3306 201 
--timestamp-20151105151639 --handle raw binlog-1 --disable |. log | bin-0 
--manager version-0.56 --slave pass-xxx 
Thu Nov 5 15:16:41 2015 - [info] 


MySQL client version is 10.] 


.8. Using --binary-mode.Applying dif 


long timehttp://www.hzcourse.com/resource/readBook?pa 


ferential binary/relay log 


files 


from master 3306 201511051 


51639.binlog on 


uu 


relay logs were successfully applied. 


A 
e 
mysql- -bin.000018:327 
A1] aves should start replication 


/ var/log/masterha//saved master binlog | 
slavel:3306. This may take ] 

Applying log files succeeded. 

Thu Nov 5 15:16:41 2015 - [info] 

Thu Nov 5 15:16:41 2015 - [info] G 

Thu Nov 5 15:16:41 2015 - [info] 

Thu Nov 5 15:16:41 2015 - [info] other s] 
should be: CHANGE MASTER TO MASTER HOST='slavel 


MASTER PORT-39306, 


MASTER LOG. POS-327, 


Thu Nov 5 15:16:41 


MASTER. LOG. FILE-'mysgl-bin.00001 8', 
MASTER U 


2015 - 


[in 


fo] 


SER-'repl', 


or 192.168.17.129', 


MASTER. PASSWORD-'kxxx' 
Executing master IP activate script:Thu Nov 5 15:16:41 


--ssh user=root --orig master host 
--orig master port-3306 --new mast 


tting new master's binlog name and positionhttp://www.hzcourse.com/resource/readl 


from here. Statement 


2015 = 


[int 


t=master --orig master ip-192.168.17.128 
ter host=slavel --new master ip-192.168.17.129 


--new master port-3306 --new master user-'admin' --new master password-'123456' 
Set read only-0 on the new master. 

Thu Nov 5 15:16:42 2015 - [info] OK. 

Thu Nov 5 15:16:42 2015 - [info] ** Finished master recovery successfully. 

Thu Nov 5 15:16:42 2015 - [info] * Phase 3: Master Recovery Phase completed. 


Fo] /usr/local/bin/master ip | 


Book?path-/openresources/teach ebook/uncompressed/15847/OEBE 


Book?path-/openresources/teach ebook/uncompressed/15847/C 


Book?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 
Exec Master Log Pos equals to Read Master Log Pos (mysql-bin.000004:327). 


No need to recover from 


running recover scripthttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/u 


51105151639.binlog --workdir-/var/log/masterha/ --target version-10.1.8-MariaDB-log 


I 


th-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/. 


failover --command-start 


文 里 识别 差异 binlog， 并 补 齐 数据 。 假 如 slave1 的 数据 比 主 库 上 的 老 ， 那 么 把 MHA 本 地 的 /vavlog/masterha/saved master binlog from master 3306 20151105151639.binlog 文 件 拷贝 到 slave1 
的 /varvlog/masterha/ 目 录 下 ， 通 


生成 以 下 同步 


Q 
5 
Z 
Q 


E MASTER TO 


MASTE 


复制 语句 : 


过 apply diff relay logs 命 令 识 别 


异 日 志 并 应 用 之 。 


R HOST-'slavel or 192.168.17.129', 


ER PORT-3306, 
ER LOG POS-327, 


Ca 
= 
Lj c p [D 


通过 master ip failoveráp S 


MASTER LOG F] 


[LE-'mysql-bin.000018', 


MASTER | USER-'repl', 


ER | PASSWORD-'xxx'; 


令 将 故障 转移 ， 将 虚拟 VIP (192.168.17.100) 漂移 到 slave1 


数 set global read onlyzO;, 
继续 看 下 面 的 日 志 : 
Thu Nov 5 15:16:42 2015 - [info] 
Thu Nov 5 15:16:42 2015 - [info] 
Thu Nov 5 15:16:42 2015 - [info] 


* Phase 4: 


* Phase 4.1: 


Starting Parallel Slave Diff 


Slaves Recovery Phasehttp://www.hzcourse.com/resource/read 


(192.168.17.129) 机 器 上 ， 从 而 使 其 提升 为 新 的 master， 并 在 slave1 (新 提升 的 master) 机 器 上 ， 关 闭 只 读 参 


工 


Book?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 


Log Generation Phasehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncomr 


Thu Nov 5 15:16:42 2015 - [info] 

Thu Nov 5 15:16:42 2015 - [info] -- Slave diff file generation on host 

Slave2 (192.168.17.130:3306) started, pid: 4423. Check tmp log 

/ var/log/ masterha/ /slave2_ 3306. 20151105151639 log if it takes timehttp:/ /www.hzcoutse.com/resource/readBook?path-/opentesources/teach. ebook/uncompressed/15847 / OEBPS/Text/.. 
Thu Nov 5 15:16:42 2015 - [info] 

Thu Nov 5 15:16:42 2015 - [info] Log messages from slave2 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/... 
Thu Nov 5 15:16:42 2015 - [info] 

Thu Nov 5 15:16:42 2015 - [info] This server has all relay logs. No need to generate diff files from the latest slave. 

Thu Nov 5 15:16:42 2015 - [info] End of log messages from slave2. 

Thu Nov 5 15:16:42 2015 - [info] -- slave2(192.168.17.130: 3306) has the latest relay log events. 

Thu Nov 5 15:16:42 2015 - [info] Generating relay diff files from the latest slave succeeded. 


第 四 阶段 是 恢复 最 老 的 slave 数 据 。 如 果 最 老 的 slave 的 sql_thread 还 没 执行 完 ， 那 么 要 先 等 它 执行 完毕 。 然 后 检查 最 老 的 slave 执 行 完成 的 relay log 和 position， 并 与 最 新 的 slave 进 行 对 比 。 


续 看 下 面 的 日 志 : 
Thu Nov 5 15:16:42 2015 - [info] * Phase 4.2: Starting Parallel Slave Log Apply Phasehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompresseq/158 
Thu Nov 5 15:16:42 2015 - [info] 
Thu Nov 5 15:16:42 2015 - [info] -- Slave recovery on host slave2(192.168.17.130:3306) started, pid: 4425. Check tmp log /var/log/masterha//slave2 3306 20151105151639.10g if 
Thu Nov 5 15:16:43 2015 - [info] 
Thu Nov 5 15:16:43 2015 - [info] Log messages from slave2 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/... 
Thu Nov 5 15:16:43 2015 - [info] 
Thu Nov 5 15:16:42 2015 - [info] Sending binloghttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 
Thu Nov 5 15:16:43 2015 -[info] scp from 
local:/var/log/masterha//saved master binlog from master 3306 20151105151639.binlog to 
root@slave2:/var/log/masterha//saved master binlog from master 3306 20151105151639.binlog succeeded. 
Thu Nov 5 15:16:43 2015 - [info] Starting recovery on slave2 (192.168.17.130:3306) http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15847/C 
Thu Nov 5 15:16:43 2015 - [info] Generating diffs succeeded. 
Thu Nov 5 15:16:43 2015 - [info] Waiting until all relay logs are applied. 
Thu Nov 5 15:16:43 2015 - [info] done. 
Thu Nov 5 15:16:43 2015 - [info] Getting slave A / /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 
Thu Nov 5 15:16:43 2015 - [info] This slave(slave2)'s Exec Master Log Pos equals to Read Master Log Pos (mysql-bin.000004:327). No need to recover from Exec | Master | Log Pos. 
Thu Nov 5 15:16:43 2015 - [info] Connecting to the target Slave host slave2, running recover scripthttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/u 
Thu Nov 5 15:16:43 2015 - [info] Executing command: apply diff relay logs 
--command-apply --slave user-'admin' --slave host-slave2 --slave ip-192.168.17.130 
--slave port-3306 --apply files-/var/log/masterha//saved master binlog from master 3306 20151105151639.binlog --workdir-/var/log/masterha/ --target version-10.1.8-MariaDB-log 
--timestamp-20151105151639 --handle raw binlog-1 --disable log bin-0 
--manager version-0.56 --slave pass-xxx 
Thu Nov 5 15:16:43 2015 - [info] 


MySQL client version is 10.1.8. Using --binary-mode.Applying differential binary/relay log files 

/ var/log/masterha//saved master binlog from master 3306 20151105151639.binlog on 

slave2:3306. This may take long timehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/... 
Applying log files succeeded. 


T 


Thu Nov 5 15:16:43 2015 - [info] All relay logs were successfully applied.Thu Nov 5 15:16:43 2015 - [info] Resetting slave slave2(192.168.17.130:3306) and starting replicat 

Thu Nov 5 15:16:43 2015 - [info] Executed CHANGE MASTER. 

Thu Nov 5 15:16:43 2015 - [info] Slave started. 

Thu Nov 5 15:16:43 2015 - [info] End of log messages from slave2. 

Thu Nov 5 15:16:43 2015 - [info] -- Slave recovery on host slave2(192.168.17.130:3306) succeeded. 

Thu Nov 5 15:16:43 2015 - [info] All new slave servers recovered successfully. 

当 最 老 的 slave 把 最 新 的 slave 上 的 relay log 补 齐 后 ，MHA 将 master 缺 失 的 那 一 部 分 binlog 发 送 给 最 者 的 slave， 然 后 通过 apply_diff_relay logs 命 令 将 数据 补 齐 ， 之 后 重 置 同步 复制 关系 ， 重 新 提升 
master。 

续 看 下 面 的 日 志 : 

Thu Nov 5 15:16:43 2015 - [info] * Phase 5: New master cleanup phasehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/.. 

Thu Nov 5 15:16:43 2015 - [info] 

Thu Nov 5 15:16:43 2015 - [info] Resetting slave info on the new masterhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15847/OEBPS/Text/ 

Thu Nov 5 15:16:43 2015 - [info] slavel: Resetting slave info succeeded. 

Thu Nov 5 15:16:43 2015 - [info] Master failover to slavel(192.168.17.129:3306) completed successfully. 

Thu Nov 5 15:16:43 2015 - [info] 

----- Failover Report ----- appl: MySQL Master failover master(192.168.17.128:3306) to slavel (192.168.17.129:3306) succeeded 

Master master (192.168.17.128:3306) is down! 

Check MHA Manager logs at MHA for details. 

Started automated (non-interactive) failover. 


Invalidated master IP address on master (192.168.17.128:3306) 

The latest slave slavel(192.168.17.129:3306) has all relay logs for recovery. 
Selected slavel (192.168.17.129:3306) as a new master. 
slavel(192.168.17.129:3306): OK: Applying all logs succeeded. 
slavel(192.168.17.129:3306): OK: Activated master IP address. 

slave2 (192.168.17.130:3306): This host has the latest relay log events. 
Generating relay diff files from the latest slave succeeded. 

slave2 (192.168.17.130:3306): OK: Applying all logs succeeded. Slave started, replicating from slavel (192.168.17.129:3306) slavel (192.168.17.129:3306): Resetting slave info succ 
Master failover to slavel(192.168.17.129:3306) completed successfully. 


最 后 就 是 打印 故障 切换 报告 了 。 


74 ”MHA 高 可 用 染 构 忌 结 


至 此 ， 关 于 MHA 的 内 容 就 介绍 完了 ， 该 技术 目前 已 广泛 使 用 于 互联 网 公司 。 在 切换 后 保证 数据 一 致 性 上 获得 了 很 好 的 解决 方案 ， 并 且 是 Percona 首 要 推荐 ， 如 图 7-8 所 示 。 


e M-S / M-M with automated failover, continued 
e MMM - Multi-Master Replication Manager 


* Agent-based system. Unreliable agent communication 
* Not sure if its even still actively being developed. Don't use. 
* MHA - Master High Availability for MySQL 
* Tries very hard to ensure data consistency when promoting a 
new slave into the master role. 
* Can be dropped into an existing MySQL topology without 


extensive reconfiguration. 
« The preferred choice of Percona's Remote DBA team. 


e MySQL Utilities 


* New tools from Oracle designed to work with MySQL 5.6 and 
GTID-based replication. Have yet to see this in the wild. 


WWw.percona.corm 


图 7-8 MHA 和 MMM 功 能 对 比 


下 面 是 MHA 的 参数 说 明 ， 详 细 内 容 如 表 7-1 所 示 。 
: Local: 表示 指 每 一 个 配置 块 内 部 。Local 功 能 的 参数 需要 放置 在 [server_xxx] 块 下 面 。 
App: 表示 参数 作用 于 master/slave。 这 些 参 数 需要 配置 在 [server_default] 块 的 下 面 。 
Global: 表示 作用 于 master/slave。Global 级 别 的 参数 用 于 管理 多 组 master/slave 结 构 ， 可 以 统一 化 管理 一 些 参 数 。 


表 7-1 MHA 参 数 说 明 


Parameter Name Parameter Scope Default Value Example 


hostname=mysql serverl, 
hostname Yes Local Only 
hostname=192.168.0.1, etc 
, gethostbyname , 
ip No Local Only ip=192.168.1.3 
($hostname) 


port Local/App/Global 3306 port=3306 


(EE) 


Parameter Name |Required? |Parameter Scope Default Value Example 
ssh host=mysql serverl, ssh 
ssh host Local Only same as hostname 
host=192.168.0.1, etc 
gethostbyname($ssh . . 
ssh ip Local Only ssh_ip=192.168.1.3 
host) 


ssh connection . 


Local/App/Global 22 
3 


Local/App/Global 
ssh options-"-i /root/.ssh/id _ 
Local/App/Global ""(empty string) dsa2" 
sa 


Local Only candidate master-1 
Local Only 
Local Only 


Local Only 


Local/App/Global skip reset slave=] 
Local/App/Global root user-mysql root 


: ssh connection timeout=20 
timeout m a 


ssh_options 


candidate master 
no master no master-1 
ignore fail ignore fail=1 

skip init ssh 
check 


skip reset slave 


No 
No 
No 
No 
No 
No 
No 
No 
No skip init ssh check-1 
No 

No 

No 


user 

password Local/App/Global ""(empty string) password-rootpass 
Master User value 

repl user O Local/App/Global | from SHOW SLAVE repl user-repl 


STATUS 


- (current replication E 
Local/App/Global d) repl user-replpass 
password 


repl password 


Local/App/Global disable log bin=1 


master pid file—/var/lib/mysql/ 
Local/App/Global ""(empty string) 
master] .pid 


Local/App/Global current OS user ssh user-root 


remote workdir-/var/log/ 
Local/App/Global /var/tmp 
masterha/app 1 
. master binlog dir-/data/ 
Local/App/Global /var/lib/mysql 
mysql1,/data/mysql2 


App/Global info log level=debug 


manager workdir=/var/log/ 


disable log bin 
master pid file 
ssh user 


remote workdir 


master binlog dir 


log level 


manager workdir /var/tmp 


masterha 
client bindir client bindir-/usr/mysql/bin 


client libdir 


client libdir—/usr/lib/mysgl 
pp 


manager log-/var/log/masterha/ 
A STDERR 
appl.log 


check repl delay | No App/Global check repl delay=0 
check repi filter |N App/Global 
latest priority N App/Global 


manager log 


No 
No 
No 
No 
No 
No 
No 
No 
No 
No 
No 
O check repl filter=0 
o 


latest priority—O 


Parameter Name |Required? |Parameter Scope 
App/Global 
App/Global 


App/Global 


Default Value Example 
multi tier slave | No multi tier slave-1 


ping interval No 


UJ 


ping interval=5 


SELECT ping type- CONNECT 


2 


ping type 0 


secondary check script= 
secondary check 

- App/Global null masterha secondary check -s 
scrip 


remote dcl -s remote dc2 


master ip failover script=/usr/ 
master Iip. 


App/Global null local/custom script/master ip _ 


failover script fail 
ailover 
master ip master ip online change 


online change |N 


© 


© O 


App/Global null script= /usr/local/custom script/ 


script master ip online change 


shutdown script- /usr/local/ 


o 


shutdown script |N null 


App/Global 
custom script/master shutdown 


report script- /usr/local/ 


Pd 
© 


report script App/Global null 


custom script/report 


init conf load report script- /usr/local/ 


null 


o 


App/Global 


script custom script/init conf loader 


第 8 章 ”MySQL 架 构 演进 : “一 主 多 从 、 读 / 写 分 离 


随 着 网 站 业务 的 扩展 、 数 据 不 断 增加 、 用 户 也 越 来 越 多 ， 单 台数 据 库 的 压力 也 就 越 来 越 大 ， 只 通过 数据 库 参 数 调整 或 者 SQL 优化 基本 已 无 法 满足 要 求 ， 这 时 可 以 采用 读 / 写 分 离 的 策略 来 改变 现状 。 


数据 库 层 面 通常 采用 的 读 / 写 分 离 技术 为 一 个 master 数 据 库 (以 下 简称 master 库 ) ， 多 个 slave 数 据 库 (以 下 简称 slave 库 ) 。master 库 负责 数据 更 新 和 实时 数据 查询 ，slave 库 负责 非 实时 数据 查询 。 在 
实际 的 应 用 中 ， 因 为 数据 库 都 是 读 多 写 少 ( 读 取 数 据 的 频率 高 ， 更 新 数据 的 频率 相对 较 少 ) ， 而 读 取 数 据 通常 耗 时 比较 长 ， 占 用 的 数据 库 服 务 器 CPU 较 多 ， 因 此 也 会 影响 用 户 体验 。 对 此 通常 的 解决 办 法 就 
是 把 查询 从 主 库 中 抽取 出 来 ， 采 用 多 个 从 库 ， 使 用 负载 均衡 ， 减 轻 每 个 从 库 的 查询 压力 。 


采用 读 / 写 分 离 技术 的 目标 是 : 既 有 效 减 轻 master 库 的 压力 ， 又 可 以 把 用 户 查 询 数据 的 请 求 分 发 到 不 同 的 slave 库 ， 从 而 保证 系统 的 健壮 性 。 


读 / 写 分 离 的 基本 原理 是 : 让 master 库 处 理事 务 增 、 删 、 改 操作 (INSERT, DELETE, UPDATE) ， 而 让 slave 库 处 理 SELECT 查询 操作 ，replication 数 据 库 负 责 把 数据 变更 同步 到 集群 的 slave 库 中 ， 如 图 
8-1 所 示 。 


master 


图 8-1 读 / 写 分 离 架构 图 


实现 读 / 写 分 离 有 两 种 方式 ， 第 一 种 是 通过 客户 端 方式 实现 ， 比 如 PHP Yii 框 架 ， 第 二 种 是 通过 Proxy 解 析 SQL 的 方式 实现 。 通 过 Yii 框 架 实现 读 / 写 分 离 非常 简单 ， 只 需要 在 配置 文件 中 写 几 个 配置 参数 即 
nJ, 


首先 ， 配 置 db.php 文 件 ， 如 图 8-2 所 示 。 


return [ 

'class' => "yii\db\Connection’, 

'charset' => 'utf8', 

'tablePrefix' => 'pro ', 

'"masterConfig' => [ 
‘username’ => ‘root’, 
‘password’ => '', 
‘attributes" => [ 


PDO: :ATTR_TIMEQUT => 16, 
]; 
] ， 


'masters' => [ 
['dsn' => 'mysql:host-127.0.0.1;dbname-yii2basic master'], 
]; 


'slaveConfig' => [ 
‘username’ => ‘root’, 
面 | 


‘password’ => '', 
‘attributes’ => | 


PDO: :ATTR_TIMEOUT => 160, 


> 'mysql:host=127.0.0.1;dbname=yii2basic slave'], 


图 8-2 ”PHP 实现 读 / 写 分 离 的 代码 
在 PHP 实 现 读 / 写 分 离 的 过 程 中 ， 要 考虑 如 下 几 个 问题 。 
. 在 主 从 架构 中 ， 如 果 主 从 延 时 、 主 从 数据 不 一 致 ， 怎 么 办 ? 如 果 有 延迟 ， 能 否 不 把 延迟 (NI) 的 请 求 转发 给 这 台 slave? 
` 如 果 是 一 主 多 从 ， 那 么 从 库 的 load balance 负 载 均衡 如 何 实现 ? 当 某 台 slave 宕 机 时 ， 能 否 不 把 请 求 转发 给 这 人 台 slave? 当 所 有 的 slave 不 可 用 时 ， 如 何 把 请 求 转发 给 master? 
采用 PHP Yii 框 架 实现 读 / 写 分 离 时 ， 是 需要 考虑 以 上 问题 的 ， 且 需要 借助 第 三 方 负载 均衡 软件 HAProxy 解 决 这 些 问 题 。 


HAProxy 提 供 了 高 可 用 性 、 负 载 均衡 以 及 基于 TCP 和 HTTP 应 用 的 代理 ， 它 支持 虚拟 主机 ， 是 一 种 免费 、 快 速 并 且 可 靠 的 解决 方案 。 对 于 那些 负载 特大 的 Web 站 点 来 说 ，HAProxy 特 别 适 用 。 这 些 站 点 
通常 需要 实现 会 话 保持 或 七 层 处 理 ，HAProxy 运 行 在 当前 的 硬件 上 ， 完 全 可 以 支持 数 以 万 计 的 并 发 连接 。 


HAProxy 具 体 以 下 特性 : 
1) 免费 开源 ， 稳 定性 非常 好 。 
2) 根据 官方 文 要 ，HAProxy 使 用 Myricom 广 商 的 万 兆 网 卡 可 以 将 10Gbys 的 网 络 带 宽 跑 满 ， 这 个 数值 作为 软件 级 负载 均衡 器 是 相当 惊人 的 。 


大 多 数 公司 的 架构 是 通过 客户 端 方式 实现 的 : 一 个 主 库 ， 多 个 从 库 。 主 库 负责 写 ， 从 库 负责 查询 ， 主 库 的 高 可 用 性 通过 MHA (Master High Availability) 实现 ， 从 库 读 的 负载 均衡 通过 LVS 或 者 
HAProxy 实 现 Java 框架 和 PHP 框 架 实 现 读 / 写 分 离 ) ， 如 图 8-3 所 示 。 
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图 8-3 MHA+LVS 2874 
通过 HAProxy 代 理 ， 基 于 connect 方 式 ， 以 及 自 定义 脚本 ， 可 以 解决 slave 延 迟 或 宕 机 故障 转移 。 


再 来 看 看 实现 读 / 写 分 离 的 第 二 种 方式 ， 即 通过 Proxy 解 析 SQL 的 方式 实现 。 早 前 ， 甲 骨 文 公司 官方 提供 了 MySQL Proxy， 但 由 于 近 几 年 一 直 没 有 正式 版 本 ， 所 以 无 法 用 在 生产 上 ， 如 图 8-4 所 示 。 然 
而 ，MariaDB 于 2015 年 1 月 14 日 宣布 其 旗下 的 MaxScale 发 布 GA 版 本 。 


MaxScale 使 用 C 语 言 开 发 ， 利 用 Linux 下 的 异步 |/O 功 能 ,使 用 epoll 作 为 事件 驱动 框架 。 它 是 MariaDB 开 发 的 一 个 数据 库 智 能 代理 服务 ， 人 允许 根 据 数据 库 SQL 语 句 将 请 求 路 由 到 多 个 服务 器 ， 且 可 设 定 各 
种 复杂 的 转向 规则 。MaxScale 可 用 于 透明 地 提供 数据 库 的 负载 均衡 和 高 可 用 性 ， 同 时 也 可 提供 高 度 可 伸缩 和 灵活 的 架构 ， 支 持 不 同 的 协议 和 路 由 决策 。 


This documentation covers MySQL Proxy 0.8.5. MySQL Proxy contains third-party code. For license 
information on third-party code, see Licenses for Third-Party Components. 


Warning 
e MySQL Proxy is currently an Alpha release and should not be used within 
production environments. 


图 8-4 MySQL Proxy 不 能 使 用 在 生产 环境 中 


MaxScale 有 两 种 方式 实现 读 / 写 分 离 。 一 种 是 基于 connect 的 ， 类 似 于 HAProxy， 不 解析 SQL 语句 ， 可 以 通过 PHP Yii 框 架 或 Java Mybatis 框 架 实现 。 在 此 方式 中 ， 用 MaxScale 做 多 台 slave 的 负载 均 
衡 ， 并 且 支 持 主 从 同步 延迟 检测 功能 ， 如 图 8-5 所 示 。 


另 一 种 是 基于 statement 的 ， 要 解析 SQL 语句 。 在 这 种 方式 里 ， 前 端 程序 不 需要 修改 ， 通 过 MaxScale 对 SQL 语句 进行 解析 ， 把 读 / 写 请 求 自 动 路 由 到 后 端 数据 库 节 点 上 ， 从 而 实现 读 / 写 分 离 。 商 业 软 件 
OneProxy 中 间 件 也 是 基于 statement 方 式 实现 读 / 写 分 离 的 。 


这 种 方式 的 好 处 是 不 修改 程序 代码 ， 减 少 了 复杂 度 ， 可 平滑 迁移 ， 无 感知 ; 缺点 是 解析 SQL 势必 会 增加 CPU 的 性 能 损耗 ， 性 能 没有 基于 connect 的 方式 好 ， 如 图 8-6 所 示 。 


MariaDB MaxScale - 基于 connect 


Load Balancing 
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Connection Load Balancing 


Each application server uses 
2 connections: 1 R/W, IR 


MaxScale / 


MaxScale connects the R/W | 
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load-balanced to all slaves 


图 8-5 ”基于 connect 


Read/Write Splitting 


Lol Ld Ld MySQL Replication R/W Split routing 


Each application server uses only 1 


connection 


MaxScale monitors the state of each | 


MaxScale node and only applies operations on 


available slaves 


RAW N MaxScale creates 2 connections, one 


Splitting 


| for R/W on the master node and one for 
| R/O load balanced on the slave nodes 


图 8-6 XT statement 


8.2 ” 主 从 同步 延迟 的 判断 标准 


在 MySQL 复 制 环境 中 ，master 将 binlog 推 送 到 slave (通过 io thread 线程 接 收 并 保存 在 本 地 relay-log) 上 ， 然 后 通过 sql thread 线程 将 binlog 重 放 ， 而 Seconds_Behind_Master 表 示 本 地 relay-log 中 
未 被 执行 完 的 那 部 分 的 差 值 。 


我 们 经 常会 通过 show slave statusNG 命 令 查看 Seconds Behind Master 的 值 是 否 为 0， 那 么 Seconds_Behind_Master 是 如 何 计算 的 呢 ? 其 计算 方法 是 通过 当前 系统 的 时 间 戳 减 去 sql thread 线 程 正 在 
执行 的 binlog event 上 的 时 间 戳 ， 得 到 的 差 值 就 是 seconds_Behind_Master 的 值 。 


通过 下 面 的 mysqlbinlog 命 令 解 析 binlog， 可 以 看 到 SET TIMESTAMP=1447782553 命 令 设置 的 时 间 戳 。 


# mysqlbinlog -vv mysql-bin.000143 | grep -C 10 'TIMESTAMP' 
JH @9=2015-11-18 01:48:36 /* DATETIME meta=0 nullable-0 is null-0 */ 


# at 1059 

#151118 1:49:13 server id 17708 end log pos 1086 Xid = 173726 

COMMIT/*!*/; 2 

# at 1086 

#151118 1:49:13 server id 17708 end log pos 1124 GTID 0-17708-9582 
/*!100001 SET @@session.gtid seq no-9582*//*!*/; 

f at 1124 mE 

#151118 1:49:13 server id 17708 end log pos 1217 Query | thread id-3202492 
exec time-0 error code-0 


use ^test'/*!*/;SET TIMESTAMP-1447782553/*!*/; 
@session.pseudo thread id-3202492/*!*/; 

@session.foreign key checks-1, @€session.sql auto is null=0, 

sion.unique checks-1, @@session.autocommit=1/*!*/; 

@session.sql mode-2097152/*!*/; 

@session.auto increment increment-1, @@session.auto increment offset=1/*!*/; 
ULES */ E RS 

@session.character set client-33, @@session.collation_connection=33, G8session.collation server-33/*!*/; 
Gsession.lc time names-0/*!*/; 

Gsession.collation database-DEFAULT/*!*/; 

RUNCATE TABLE tablel 

"uir e. 


*IN 


H 0 o0 uu ucdctu tu 
Ej B E E E 可 Er 
Hj 
CD (cO (EO (2) (e (0 UD) MA 


事实 上 ， 这 样 的 计算 是 不 准确 的 ， 可 通过 以 下 几 个 例子 进行 验证 。 


示例 一 : 调整 系统 时 间 


首先 使 用 sysbench 生 成 一 张 1000 万 行 的 表 : 


# yum install sysbench 

# sysbench --test-oltp  --mysqi-table-engine-innodb 
--oltp-table-size-10000000 --mysql-host-127.0.0.1 --mysql-port-3306 
--mysql-user-root --mysqi-password-123456 --mysql-db-test 


--mysql-socket-/tmp/mysql.sock --db-driver-mysql prepare 


然后 在 master 上 全 表 更 新 ， 命 令 如 下 : 


# update sbtest set c-'aaa'; 
执行 完毕 后 ，slave 就 会 产生 延迟 ， 反 复 执 行 show slave status\G 去 观察 Seconds_Behind_Master 的 值 ， 然 后 在 这 台 slave 上 把 系统 时 间 改 成 2020 年 1 月 1 日 ， 会 发 现 Seconds_Behind_Master 的 值 瞬间 


会 变 得 巨大 ; 如果 把 系统 时 间 改 成 2010 年 1 月 1 日 ， 会 发 现 Seconds_Behind_Master 的 值 永远 为 0。 


首先 ， 在 VMware 虚 拟 机 控制 台 上 关闭 网 卡 ， 如 图 8-7 所 示 。 
13 MHA Manager -VMware Workstation | 一 | nm | 
文件 (Fi) SE BEM BEGUM 选项 卡 中 ”帮助 (H) 


了 | co 5 d | E] E E O 


CentOS release 6.6 (Final) 
Kernel Z.6.32-5H4.e&616.x85 54 on an x86 64 


IHA login: e1866 BBBB:BHZ:H1.H8: ethB: Reset adapter 


entOS release 6.6 (Final) 
Kernel Z2.6.32-584.616.x86 64 on an x86 64 


HA login: ^L^R^LE37^EE37^LE37^LI37 


要 将 输入 定向 到 该 虚拟 机 ,请 在 虚拟 机 内 部 单 二 或 按 Ctrl+G。 S| Se & ied 


图 8-7 VMware 断 开 网 卡 连接 
然后 ， 在 master 上 插入 一 条 数据 。 


接着 ， 在 slave 上 反复 执行 show slave statusS\G。 此 时 观察 Seconds Behind Master 的 值 ， 发 现 仍 为 0， 并 且 显 示 IO/SQL 线 程 都 是 正常 的 。 但 由 于 关闭 了 网 卡 ， 网 络 不 通 ，master 上 的 binlog 是 无 法 推 
送 到 slave 上 的 ， 因 此 此 时 的 数据 是 不 一 致 的 。 


出 现 上 述 问 题 的 原因 是 什么 呢 ? 由 于 默认 的 参数 slave_net timeout 是 3600 秒 (1 小 时 ) ， 因 此 只 有 在 master 一 个 小 时 都 没有 binlog 发 送 过 来 时 ，slave 才 会 党 试 重 连 主 库 。 所 以 在 生产 环境 下 ， 建 议 把 
slave net timeout 调 小 (比如 10 秒 ) ， 以 避免 出 现 这 种 问题 。 


基于 这 种 情况 ， 可 采用 Percona 工 具 集 pt-heartbeat 对 主 从 复制 延迟 进行 检测 ， 其 工作 方式 如 下 。 
: 在 mastetr 上 创建 一 张 heartbeat 表 ， 按 照 一 定 的 时 间 频 率 更 新 该 表 的 字段 (把 时 间 更 新 进去 ) 。 
: 连接 到 slave 上 检查 复制 的 时 间 记 录 ， 与 lave 的 当前 系统 时 间 进 行 比较 ， 得 出 时 间 的 差异 。 

下 面 给 出 pt-heartbeat 工 具 使 用 的 步骤 。 


1) 在 主 库 上 开启 守护 进程 ， 通 过 更 新 heartbeat 表 来 获取 主 从 延迟 的 差距 ， 命 令 如 下 : 


# pt-heartbeat -S /tmp/mysql.sock --user root --password 123456 --database test --update --create-table --interval-1 --daemonize 


参数 解释 如 下 : 


# --create-table 


指 在 主 库 上 创建 heartbeat 表 ， 默 认 是 不 存在 的 。 


Percona 官 方 建议 使 用 MEMORY 存 储 引 警 来 保存 heartbeat 表 数据 ， 由 于 heartbeat 表 每 秒 都 在 更 新 ， 所 以 放 入 内 存 里 是 最 快 的 ， 如 图 8-8 所 示 。 


You must either manually create the heartbeat table on the master or use —create-table. See --create-table for the proper 


heartbeat table structure. The MEMORY storage engine is suggested, but not required of course, for MySQL. 


图 8-8 ”建议 使 用 MEMORY 存 储 引 学 


heartbeat 表 结构 如 下 : 


CREATE TABLE heartbeat ( 
ts varchar (26) NOT NULL, 
server id int unsigned NOT NULL PRIMARY KEY, 
file varchar(255) DEFAULT NULL, -—— SHOW MASTER STATUS 
position bigint unsigned DEFAULT NULL, -—- SHOW MASTER STATUS 
relay master log file varchar(255) DEFAULT NULL, -- SHOW SLAVE STATUS 
exec master log pos bigint unsigned DEFAULT NULL -- SHOW SLAVE STATUS 


); 
alter table heartbeat engine-MEMORY; 


heratbeat 表 一 直 在 更 改 ts 和 position， 而 ts 是 检查 复制 延迟 的 关键 。 


再 看 下 面 的 参数 。 


# --interval-1 检查 、 更 新 的 间隔 时 间 ， 默 认 是 1s 
# --daemonize 执行 时 ， 放 入 后 台 执 行 


2) 在 从 库 上 执行 如 下 命令 : 


# pt-heartbeat -S /tmp/mysql.sock --user root --password 123456 --database test --monitor --master-server-id 128 


其 中 的 参数 说 明 如 下 : 
: --monitot 代 表 一 直 执 行 ， 不 退出 。 
- --mastet-setvet-id 后 面 跟 mastet 的 Setvet id. 
 --Check 代 表 执 行 一 次 就 退出 。 


命令 执行 的 效果 如 图 8-9 所 示 。 


[root@slavel “J# /usr/local/bin/pt-heartbeat -S /tmp/mvsql.sock --database test —monitor --master-server-id 128 
00s . 00s, 0.00s, 0.00s 
00s . 00s, . 00s, . 00s 
00s .00s， 00s， . 00s 
00s . 00s, 00s, 00s 
00s . 00s, 00s, 00s 
00s . 00s, 00s, 00s 
00s . 00s, 00s, 00s 
00s . 00s, 00s, 00s 
00s . 00s, 00s, . 00s 
00s . 00s, 00s, . 00s 
00s . 00s, 00s, . 00s 
00s . 00s, . 00s, . 00s 
. 00s . 00s, . 00s, . 00s 


oooo 


ooooooooo 
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图 8-9 延迟 监控 
其 中 ，0 表 示 从 没有 延迟 。[0.00s，0.00s，0.00s] 分 别 表 示 1m、5m、15m 的 平均 值 。 可 以 通过 --frames 去 设置 。 


3) 用 参数 --stop 关 闭 master 上 执行 的 后 台 进 程 ， 命 令 如 下 : 


# pt-heartbeat -S /tmp/mysql.sock --user root --stop 
Successfully created file /tmp/pt-heartbeat-sentinel 


这 样 就 把 在 master 上 开启 的 进程 杀 掉 了 ， 如 果 要 继续 开启 后 台 进 程 ， 需 要 把 /tmpy/pt-heartbeat-sentinel 文 件 删除 ， 否 则 启动 不 了 。 


通过 pt-heartbeart 工 具 可 以 很 好 地 弥补 默认 主 从 延迟 的 问题 ， 而 默认 的 Seconds_Behind_Master 值 是 通过 将 服务 器 当前 的 时 间 戳 与 二 进 制 日 志 中 的 事件 时 间 戳 相对 比 得 到 的 ， 所 以 只 有 在 执行 事件 时 
才能 报告 延 时 。 


8.3 ”HAProxy 感 知 MySQL 主 从 同步 延迟 


先 来 看 看 HaProxy+MySQL 主 从 配置 环境 ， 如 下 。 
HAProxy: 192.168.17.131 


Master: 192.168.17.128 


Slave1: 192.168.17.129 


Slave2: 192.168.17.130 


1) 设置 host 解 析 。4 台 服务 器 的 配置 如 下 : 


# cat /etc/hosts 

192.168.17.128 master 
192.168.17.129 slavel 
192.168.17.130 slave2 
192.168.17.131 HAProxy 


2) 安装 HAProxy， 命 令 如 下 : 


# yum install haproxy -y 


3) 安装 rsyslog， 命 令 如 下 : 


# yum install rsyslog -y 
# vim /etc/rsyslog.conf 


之 后 定义 HAProxy 的 输出 log， 在 最 后 一 行 加 入 如 下 内 容 : 


local2.* /var/log/HAProxy.log 
SModLoad imudp 

SUDPServerRun 514 

# /etc/init.d/rsyslog restart 


重启 rsyslog 服 务 。 


A) 修改 文件 描述 符 65535。 


# vim /etc/security/limits.conf 
* soft nofile 65535 

* hard nofile 65535 

# vim /etc/sysctl.conf 
Fs.file-max-655350 
net.ipv4.ip local port range = 1025 65000 
net.ipv4.tcp tw reuse = 1 

# 修改 完毕 后 ， 重 启 服务 器 生效 


Et 


La 


5) 配置 HAProxy 服 务 。 其 中 包括 以 下 5 大 部 分 。 


- global: 全 局 配置 参数 ， 进 程 级 的 ， 用 来 控制 HAProxy 启 动 前 的 一 些 进程 及 系统 设置 。 


: defaults: 配置 一 些 上 默认 的 参数 ， 可 以 被 fontend、backend、listen 段 继承 使 用 。 


- frontend: 用 来 匹配 接收 客户 所 请 求 的 域名 、uti 等 ， 并 针对 不 同 的 匹配 做 不 同 的 请 求 处 理 。 


‘backend: 定义 后 端 服务 器 集群 ， 以 及 对 后 端 服务 器 的 一 些 权 重 、 队 列 、 连 接 数 等 选项 进行 设置 ， 笔 者 将 其 理解 为 Nginx 中 的 upstream 块 。 


: listen: 理解 为 fontend 和 backend 的 组 合体 。 


配置 文件 说 明 如 下 。 


# cat /etc/HAProxy/HAProxy.cfg 
global 

# 全 局 参数 的 设置 

log 127.0.0.1 local2 


# 全 局 的 日 志 配 置 ， 使 用 log 关 键 字 ， 指 定 使 用 127.0.0.1 上 syslog 服 务 中 的 local2 日 志 设 备 ， 记 录 日 志 等 级 为 arning 的 日 志 


maxconn 65535 

# 定义 haproxy 进 程 的 最 大 连接 数 
user haproxy 

group haproxy 

# 设置 运行 HAProxy 的 用 户 和 组 
daemon 

# 以 守护 进程 的 方式 运行 

nbproc 24 


+ 设置 HAProxy 启 动 时 的 进程 数 ， 该 值 应 该 和 服务 器 的 CPU 核 心 数 一 致 ， 比 如 常见 的 2 颗 12 核 CPU 的 服务 器 共有 24 核 ， 则 可 以 将 其 值 设 置 为 : <=24 ,创建 多 个 进程 数 ， 可 以 减少 每 个 进程 的 任务 队列 ,但 是 过 多 的 进程 数 也 可 能 会 导 . 


defaults 
# 配置 默认 的 参数 

log global 

# 继承 global 中 log 的 定义 
option tcplog 

# 启用 日 志 记 录 TCP 请 求 
option dontlognull 


# 启用 该 项 ， 上 日 志 中 将 不 会 记录 空 连接 。 空 连接 指 在 上 游 的 负载 均衡 器 或 监控 系统 中 ， 为 了 探测 该 服务 是 否 存活 可 用 而 定期 连接 或 获取 某 一 固定 的 组 件 或 页 面 ， 或 者 探测 扫描 端口 是 在 监听 还 是 处 于 开放 状态 等 ; 官方 文档 中 标注 ，: 


retries 3 


# 定义 连接 后 端 服务 器 的 失败 重 连 次 数 ， 连 接 失 败 次 数 超过 此 值 后 会 将 对 应 后 端 服务 器 标记 为 不 可 用 


option redispatch 


# 若 使 用 了 cookie，HAProxy 会 将 其 请 求 的 后 端 服务 器 的 serverI 


option abortonclose 

E 当 服 务 器 负载 很 高 时 ， 自 动 结 来 当前 队列 处 理 比较 久 的 链接 
timeout connect 10s 

# 设置 成 功 连接 到 一 台 服 务 器 的 最 长 等 待 时 间 
timeout client 2m 

+ 设置 客户 端 发 送 数 据 时 的 最 长 等 待 时 间 

timeout server 2m 

# 设置 服务 器 端 回应 客户 端 发 送 数据 时 的 最 长 等 待 时 间 
timeout queue 1m 

# 设置 一 个 请 求 在 队列 里 的 超时 时 间 

frontend mysqlcluster-front 

# 定义 一 个 名 为 mysqlcluster-front 的 前 端 部 分 
bind *:3320 

# 应 用 端 PHP/JAVA 连 接 HAProxy 的 端口 号 

mode tcp 

# tcp 是 四 层 模 式 

default backend mysqlcluster-back 

# 定义 一 个 名 为 mysqlcluster-back 的 后 端 部 分 
frontend stats-front 

# 定义 一 个 名 为 stats-front 的 前 端 部 分 


bind *:80 
# HAProxy 监 挖 页 面 的 端口 号 
mode http 


# http 是 七 层 模式 
default backend stats-back 


D 插 入 cookie 中 ， 以 保证 会 话 的 9] 


ESSION 持 久 性 ;此 时 ， 如 果 后 端的 服务 器 宕 机 ， 那 么 客户 端的 Cookie 是 不 会 刷新 的 。 如 果 设 置 此 参数 ， 则 会 将 客户 的 请 求 强制 5 


+ 定义 一 个 名 为 stats-back 的 后 端 部 分 
backend mysqlcluster-back 

mode tcp 

balance roundrobin 

* 轮 询 模式 

option httpchk 

# 开启 对 后 端 服务 器 的 健康 检测 
server 192.168.17.128 192.168.17.128:3306 check port 9200 inter 2000 rise 3 fall 3 backup 
E 正常 的 服务 器 全 部 都 宕 机 时 ， 才 会 启用 备份 服务 器 [backup] 
server 192.168.17.129 192.168.17.129:3306 check port 9200 inter 2000 rise 3 fall 3 weight 10 
# port 9200 端 口 是 调 用 后 端 DB 的 服务 ， 用 来 感知 MySQL 同 步 延迟 
# weight 10 代 表 权 重 ， 值 越 小 ， 转 发 的 请 求 就 越 少 

server 192.168.17.130 192.168.17.130:3306 check port 9200 inter 2000 rise 3 fall 3 weight 10 
backend stats-back 

mode http 

tats uri /HAProxy/stats 

定义 监控 页 面 URL 地 址 

ts auth admin:123456 

定义 页 面 访问 的 用 户 名 和 密码 

tats refresh 3s 


# 定义 每 3 秒 自动 刷新 页 面 


Q 0 EU 
( 
w 


6) 启动 HAProxy 服 务 ， 命 令 如 下 : 


4 /etc/init.d/haproxy start 


7) 访问 监控 页 面 URL。 打 开 浏 览 器 ， 输 入 URL: http://192.168.17.131/haproxy/stats， 第 一 次 会 让 你 输入 用 户 名 和 密码 ， 如 图 8-10 所 示 。 


这 里 输入 刚才 定义 好 的 用 户 名 ， 为 admin， 密 码 为 123456。 


admin 


图 8-10 输入 用 户 名 和 密码 


图 8-11 是 进入 后 的 监控 页 面 ， 这 里 看 到 从 库 192.168.17.129/130 是 DOWN 状 态 ， 是 因为 HAProxy 在 调用 后 端 slave 的 9200 端 口服 务 ， 我 们 还 没有 在 该 机 器 里 配置 同步 监测 脚本 ， 所 以 这 里 才 显示 DOWN 


HAProxy version 1.5.4, released 2014/09/02 
Statistics Report for pid 2605 


» General process information 

active UF backup UP Display option: External resources: 
pid = 2605 iprocess #1. nhproc = 1) active UP, gcing down backup UP, going down + Scope: * Primary site 
uptime = 0d OhO4m25s active DOWN, going up |] backup DOWN, going up T) > Updates [vib 


system limits: memmax = unlimited; ulimit-n = 121035 * Hide UOWN servers * Online manual 
maxsock = 131085; maxconn = 65535; maxpipes = 0 active or beckup DOWN not checkec Dissble refresh 


currert conns = 1; current pipes = U/D; conn rate = 1/sec active cr backup DOWN ‘or maintensnce (MAINT) Refresh now 
Running tasks: 1/9; Idie = 100 96 active or beckup SOFT STOPPED for maintenance CSV export 
Note: "NOLB"/DRAIN" = UP with Icad-bslarcing dissbled. 


my 53lcluster-front 
MM Max Limit | Total LbTot Ip 


stats-ront 


Queue | Sessionrate — 
Cur Max Limit Cur Max Limit Cur Max Limit 
Frontend 1 3 1 1 95 535 


mysqalcluster-back 


CIE ILTIE ILICE INN NN [wut] 


ee | stave | nimat | omme | mane | timit [orar | rs | IEEE 23 aec 
PAR Hee UE Po] oj e| of masur | romano | 1 | -| | o 
102.168.17.126 | 0| 0 - | i ae) tees DOWN L7STS603 in 1002ms | 10 | Y | 


T ea 
EIL EN M NEN alo [ e| ol Usisemnwem | o |v|- | 1 


Backend 


stats-back 
Queue Session rate 
Cur Max Limit Cur Max Limit Cur Max Limit Tetal LkTet Last Out Req Resp Req Conn Resp Retr Redis Status LastChk  Wght Act Bek Chk Dwn Dwntme  Thrile 
Gackend | o 1 1 1 1 o 524 z o Js 22 o o o J 0 (= 4m25s UP 0 | 0 v 


图 8-11  HAProxy 5 控 页 面 


8) 配置 slave 的 同步 检测 9200 端 口服 务 ， 命 令 如 下 : 


# yum install xinetd -y 
# vim /etc/services 


增加 9200 服 务 时 ， 要 在 最 后 一 行 加 入 如 下 内 容 : 


mysqichk 9200/tcp # mysqlchk 
# vim /etc/xinetd.d/mysqlchk 


修改 mysqlchk 文 件 ， 添 加 如 下 内 容 : 


# default: on 
4 description: mysqlchk 
service mysqlchk 
{ 
# this is a config for xinetd, place it in /etc/xinetd.d/ 

disable = no 


flags = REUSE 
socket_type = stream 
port = 9200 

wait = no 


user = nobody 

server = /usr/bin/replication check 
log_on failure += USERID E 
only from = 0.0.0.0/0 
# recommended to put the IPs that need 

# to connect exclusively (security purposes) 
per source = UNLIMITED 


然后 创建 如 下 同步 延迟 检测 脚本 ， 这 个 脚本 就 是 HAProxy 调 用 的 。 


* vim /usr/bin/replication check 


这 里 定义 的 是 延迟 小 于 10 秒 时 ， 为 OK 状态 ， 超 过 10 秒 认定 该 slave 宕 机 ， 不 会 把 请 求 转发 给 它 。 修 改 replication_check 脚 本 ， 添 加 如 下 内 容 : 


#!/bin/bash 
Master server id-128 

Seconds Behind Master-$ (/usr/local/bin/pt-heartbeat -S /tmp/mysql.sock --user root --password 123456 --database test --check --master-server-id $Master server id) 
result= echo ${Seconds Behind Master$.*]^ 

if [ $result -lt 10 ] 

then 


# mysql is fine, return http 200 

/bin/echo -e "HTTP/1.1 200 OK\r\n" 

/bin/echo -e "Content-Type: Content-Type: text/plain rM" 
/bin/echo -e "\r\n" 

/bin/echo -e "MySQL is running. VrMn" 

/bin/echo -e "\r\n" 


else 


4 mysql is fine, return http 503 

/bin/echo -e "HTTP/1.1 503 Service Unavailable\r\n" 
/bin/echo -e "Content-Type: Content-Type: text/plain\r\n" 
/bin/echo -e "\r\n" 

/bin/echo -e "MySQL is *down*.\r\n" 

/bin/echo -e "\r\n" 


赋予 replication_check 可 执行 权限 ， 命 令 如 下 : 


* chmod 755 /usr/bin/replication check 
# /usr/bin/replication check 

HTTP/1.1 200 OK i 

Content-Type: Content-Type: text/plain 
MySQL is running. 

4 /etc/init.d/xinetd start 


从 图 8-12 可 以 看 到 端口 已 经 启动 。 


[root@slavel J# netstat -ntlp | grep 9200 
tcp 0 0 :::9200 id. LISTEN 16791/xinetd 


[root@slavel “J# 


图 8-12 ”xinetd 服 务 启 动 
通过 监控 页 面 可 以 看 到 全 部 slave 均 正常 ， 如 图 8-13 所 示 。 


HAProxy version 1.5.4, released 2014/09/02 
Statistics Report for pid 3161 


> General process information 

Display option: External resources: 
FE * Primary site 

* Updates (v1.5) 


© Online menual 


active UP beckup UP 
pid — 2161 (process #1, nbprac — 7) adive UP, going down beckup UP, going down * Scope: 
uptime = Od Oh05m23s F . $ 

active DOWN, going u bsckup DOWN, going u ide " 
system limits: memmex = unlimited, ulimit-n = 191085 Tm P sila * Hide "DOWN servers 
maxsock = 131085, maxconn = 05535, maxpipes =0 
cunent conns = 1; current pipes = 0/0; conn rate = 0/sec active or backup DOWN for maintenance (MAINT) 
Running tasks: 1/9; idle = 100 % active or backup SOFT STOPPED for maintenance © CSV export 


Note: "NOLB8"/"DRAIN" = UP with load-balancing disabled 
mysqiciuster-front 


Queue Session rate Sessions Bytes | Denied | Errors Wamings | Server 
T T T T T T T T T T | T T T T T T T T T T T T T T 
Cur Max Limit Cur | Max Limit Cur Limit Total | LbTot | Last | In Out | Req | Resp Req Conn Resp | Ret | Redis | Status | LastChk | Wght | Act | Bok Chk | Dwn Dwntme Thrile 


Frontend o 2 -| € ! 5 | | 1283058 2682780| 0| oj o | OPEN | 


stats-front 


, Queue |  Sessonrte | Sessions | tes Denied  Emors | Wamings | - Server KS E 
| Cur | Max | Limit | Cur | Max | Limit | Cur Max | Limit Total  LbTot Last | Out | Req | Resp Req | Conn Resp | Retr | Redis | Status LastChk | Wght Act Bck Chk | Dwn Dvrntme Thrtle 
2 | 


Frontend | a 2| : 4 4 | 1 771415 C 0| o | OPEN 


Queue | Sessionrate — |. Sessions Byte | Jenie | Errors | Warnings | Server 


Cur | Max | Limit | Cur | Max | Limit | Cur| Max| Limit | Total | Letot | Last | [Rea Conn | LastChk | Wight Act Bok Chk | Dwn | Dwmtme | Thrtle 
0 B ETE 0 ZB | | 0 0 5m3s UP L70K/200 in 1010ms 


active or backup DOWN net checked e Disable rafrask 
© Refresh now 


| 792.168.17.128 0 
| 192.168.17129 | 0| 
o 
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0| 2| - 0| 3 Enp Ss| 1282058 
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| Session rate Sessions i | Warnings | Server 


| Cur | Max | Limit | Cur | Max Limit Cur| Max Limit | Total | LbTot Last. | | Req | Resp | Req | Conn | Resp | Retr | Redis | | | LastChk Waht Act Bck | Chk | Dwn  Dwntme  Thrie- 
| o | 1 3 1| 1 se| 1 ol 0 0 0 | 0 | o| 


图 8-13 HAProxy 监 控 页 面 


同步 延迟 和 故障 切换 测试 过 程 如 下 。 


测试 之 前 ， 要 在 master (192.168.17.128) 、slave1 (192.168.17.129) , slave2 (192.168.17.130) 上 均 打 开 General Log， 命 令 如 下 : 


Set global general log-1; 


(1) 模拟 slave 延 迟 


在 slave2 (192.168.17.130) 上 执行 flush tables with read lock 全 局 读 锁 ， 通 过 客户 端 连 接 HAProxy 3320 端 口 ， 命 令 如 下 : 


mysql -h192.168.17.131 -uadmin -p123456 -P3320 test -e "select * from tl where id =1;" 


这 时 通过 查看 General Log， 可 以 发 现 复制 延迟 超过 10 秒 (/usr/bin/replication_check 脚 本 里 定义 ) 的 客户 端 请 求 不 会 转发 到 slave2 上 。 


(2) 模拟 一 台 slave 故 障 


在 slave2 (192.168.17.130) 上 执行 stop slave io thread 或 stop slave sql thread， 通 过 客户 端 连接 HAProxy 3320 端 口 ， 命 令 如 下 : 


mysql -h192.168.17.131 -uadmin -p123456 -P3320 test -e "select * from tl where id -1;" 


这 时 通过 查看 General Log 可 以 发 现 客户 端 请 求 不 会 转发 到 slave2 上 。 
(3) 模拟 全 部 的 slave 故 障 


在 slave1 (192.168.17.129) 和 slave2 (192.168.17.130) 上 执行 stop slave io _ thread 或 者 stop slave sql thread， 通 过 客户 端 连 接 HAProxy 3320 端 口 ， 命 令 如 下 : 


mysql -h192.168.17.131 -uadmin -p123456 -P3320 test -e "select * from tl where id -1;" 


这 时 通过 查看 General Log 可 以 发 现 所 有 的 请 求 都 只 会 转发 给 master (192.168.17.128) ，slave 上 并 不 会 有 请 求 转发 ， 实 现 了 平滑 故障 转移 。 


综合 来 看 ， 这 个 架构 是 存在 一 定 问题 的 ， 虽 然 解决 了 slave 延 迟 和 宕 机 的 问题 ， 但 细心 的 读者 会 发 现 ， 主 从 延迟 判断 是 依赖 pt-heartbeat 的 ，master 上 需要 启动 一 个 pt-heartbeat 守 护 进程 。 假 如 
master (server id=128) 宕 机 ， 那 么 新 的 slave (server id=129) 提升 为 naster， 此 时 就 需要 人 工 再 次 启动 pt-heartbeat 守 护 进程 ， 而 slave2 (server id=130) 还 需要 修改 /usr/bin/replication_check 
脚本 ， 将 里 面 的 pt-heartbeat--master-server-id 128 改 为 --master-server-id 129。 但 在 这 之 前 ， 由 于 master 的 宕 机 ，slave (server id=129) 通过 如 下 脚本 检测 到 同步 复制 失败 ， 因 此 HAProxy 会 将 两 台 
slave (server id=128/129) 进行 下 线 处 理 ， 此 时 整个 业务 瘫痪 ， 无 法 做 到 无 感知 平滑 故障 切换 。 


# pt-heartbeat -S /tmp/mysql.sock --user root --password 123456 --database test --check --master-server-id 128 


8.4 iz/5^4jmMariaDB MaxScale 架 构 搭建 演示 


8.4.1 配置 环境 及 安 禾 介绍 


先 来 看 看 搭建 该 架构 的 配置 环境 ， 如 下 。 
MaxScale: 192.168.17.131 

Master: 192.168.17.128 

Slave1: 192.168.17.129 


Slave2: 192.168.17.130 


1) 设置 hosts 解 析 。4 台 服务 器 的 配置 如 下 : 


# cat /etc/hosts 
192.168.17.128 master 
.17.129 slavel 
192.168.17.130 slave2 
7.131 MaxScale 


2) 安装 MaxScale。 其 官网 下 载 地 址 为 : https://mariadb.com/my_portal/download/maxscale, 
安装 命令 如 下 : 


# rpm -ivh maxscale-1.2.1-1.rhel6.x86 64.rpm 


3) 创 建 加 密 密 钥 ， 命 令 如 下 : 


# maxkeys /var/lib/maxscale/ 


密 钥 文 件 .secrets 存 放 在 /var/lib/maxscale/ 目 录 下 。 


对 


4) 创建 加 密 密 码 ， 命 令 如 下 : 


E 


# maxpasswd /var/lib/maxscale/ 123456 
DOE432F8DC9919A6F1F8C7D0AB57E98] 
# 这 里 是 对 密码 123456 做 加 密 


5) 修改 文件 描述 符 65535 以 达到 tcp 的 最 大 连接 数 ， 命 令 如 下 : 


# vim /etc/security/limits.conf 
* soft nofile 65535 
* hard nofile 65535 
# vim /etc/sysctl.conf 
Fs.file-max-655350 


net.ipv4.ip local port range = 1025 65000 
net.ipv4.tcp tw reuse = 1 
修改 完毕 后 ， 通 过 reboot 重 启 服务 器 使 之 生效 。 


6) 配置 MaxScale 服 务 ， 配 置 文件 如 下 : 


# cat /etc/maxscale.cnf 
[maxscale] 

threads-1 

HE 如 果 CPU 是 24 核 的 ， 那 么 线程 设置 为 12 核 即 可 

[MySQL Monitor] 

type-monitor 

module-mysqlmon 

servers=serverl, server2, server3 

user=admin 

# MaxScale 监 控 账 号 

passwd=6590A334C68DE06B41847F38AF7E8F24 

monitor interval=10000 

# 默认 每 隔 10 秒 执行 监控 检查 

detect stale master=1 

+ 当 所 有 的 slave 都 不 可 用 时 ，select 查 询 请 求 会 转发 给 master， 默 认为 关闭 ， 设 置 为 1 开启 。 
detect replication lag-1 

* 开启 同步 复制 延迟 检查 ， 默 认为 关闭 ， 设 置 为 1 开启 。 

[RW Split Router] 

4 基于 statement SQL 解析 的 方式 

type-service 

router-readwritesplit 

servers=serverl, server2, server3 

uSser-rw 

# 应 用 读 / 写 分 离 账 号 

passwd=6590A334C68DE06B41847F38AF7E8F24 

max slave replication lag-5 

# 定义 超过 延迟 5 秒 ， 把 请 求 转发 给 其 他 sLave 

max slave connections-100$ 

+ 所 有 的 Slave 提 供 select 查 询 服务 

#weightby=serv weight 

# 定义 权重 

use sql variables in=all 

# 如 果 程 序 需要 预先 设置 会 话 变 量 ， 如 Discuz 论 坛 程序 ， 那 么 每 次 连接 数据 库 都 要 执行 如 下 命令 。 
#SET character set connection=utf8, character set results=utf8, 
#character set client-binary, sql mode-'' 

# utall, A#E34masterfeslave Litt, 4 E Až master 

# 将 只 会 路 由 到 master 上 执行 

# enable root user=1 

# 默认 禁止 oot 超 级 权限 用 户 访 问 ， 设 置 为 1 表示 开局 

[Read Connection Router] 

# 基于 connect 的 方式 

type=service 

router=readconnroute 

servers-serverl, server2, server3 

user=rw 

passwd=6590A334C68DE06B41847F38AF7E8F24 

router options=slave 

max slave replication lag=5 
# 定义 超过 延迟 5 秒 ， 则 把 请 求 转 发 给 其 他 sl1avVe 
[CLI] 
type=service 
router-cli 


[RW Split Listener] 
type-listener 
service=RW Split Router 
protocol-MySQLClient 

port-4006 

# 读 / 写 分 离 端口 ， 应 用 连接 这 个 端口 
[Read Connection Listener] 
type-listener 

service-Read Connection Router 
protocol-MySQLClient 
port-4008 

# slave 负 和 载 均 衡 的 端口 ， 应 用 连接 这 个 端口 
[CLI Listener] 

type-listener 

service-CLI 
protocol=maxscaled 
port=6603 
# MaxScale 后 台 管 理 端口 
[serverl] 
type-server 
address-192.168.17.128 
port=3306 
protocol=MySQLBackend 
#serv_weight=1 

# 权重 自 定义 

[server2] 

type-server 
address-192.168.17.129 
port=3306 
protocol=MySQLBackend 
#serv_weight=10 

# 权重 自 定义 

[server3] 

type-server 
address-192.168.17.130 
port=3306 
protocol-MySQLBackend 
#serv_weight=10 

# 权重 自 定义 


7) 局 动 服务 ， 命 令 如 下 : 


/etc/init.d/maxscale start 


安装 完成 之 后 ， 再 来 说 明 前 端 PHP/Java 程 序 的 接 入 注意 事项 。 
以 下 情况 ，select 查 询 将 会 在 master 上 执行 。 
- 当 事 务 里 有 SQL 语 句 (begin;select;commit;) Hj. 


: 在 Java 预 编译 语句 prepared statement 中 执行 SQL 时 ， 如 下 代码 所 示 : 


protectedbooleanupdateSalary (Connection conn, BigDecimalx, String ID) throws SQLException( 


PreparedStatementpstmt - null; 

try ( 

pstmt = conn. prepareStatement ("UPDATE EMPLOYEES SET SALARY = WHERE ID = "); 
pstme. setBigDecimal (1, x); 

pstmt. setString (2, ID); 

return true; 

) finally 

if (pstmt ! = null) { 

pstmt. close (); 


} 
} 
} 


PAT AEA SA Ba, 


SUIS ”目前 MaxScale 1.2.1 版 本 不 支持 水 平分 库 分 表 ， 将 在 未 来 的 版 本 里 支持 。 


8.5” 读 / 写 分 离 OneProxy 介 绍 及 架构 搭建 演示 


本 节 内 容 以 会 员 信 息 为 例 进行 说 明 。 假 设 你 的 业务 突飞猛进 ， 现 在 每 天 有 上 和 干 万 的 页 面 访问 量 或 会 员 登 录 ， 这 时 若 还 只 用 一 台 机 器 来 提供 会 员 信息 的 服务 可 能 会 项 不 住 或 运行 极 不 稳定 。 由 于 会 员 信息 
具有 以 读 为 主 的 业务 特征 ， 因 此 可 以 考虑 复制 多 份 会 员 信息 ， 将 读 流量 分 担 出 去 ， 从 而 进行 架构 的 横向 扩展 ， 以 保证 业务 的 稳定 。 如 果 和 希望 对 应 用 完全 透明 ， 那 么 后 端的 读 节点 可 以 根据 需要 进行 透明 伸 
缩 。 


OnepProxy 可 在 自动 单 点 切换 的 功能 基础 上 进行 扩展 ， 实 现 对 应 用 透明 的 读 / 写 分 离 功能 。 它 所 具有 的 内 置 故障 检测 机 制 可 以 在 1 秒 钟 内 发 现 后 端 故障 ， 并 主动 踢 除 出 问题 的 数据 库 ， 无 须 向 应 用 推送 后 端 
数据 库 的 运行 状态 ， 以 实现 轻松 运行 维护 。 目 前 已 在 Zabbix、PHP、PHPWind、Discuz 和 Java JDBC 上 验证 过 ， 越 来 越 多 的 用 户 正 在 选择 用 OneProxy 来 保障 以 读 为 主 的 互联 网 业务 。 


第 9 章  Codership Galera Cluster 集 群 架构 搭建 与 管理 


Galera Cluster 是 由 第 三 方 公 司 Codership 所 研发 的 一 套 免 费 开 源 的 集群 高 可 用 性 方案 ， 实 现 了 数据 零 丢 失 ， 官 网 地 址 为 http://galeracluster.com/。 其 在 MySQL InnoDB 存 储 引 人 擎 基础 上 打 了 
wsrep (虚拟 全 同步 复制 ) 补丁 ，Percona/MariaDB 已 捆绑 在 各 自 的 发 行 版 里 ， 目 前 只 可 在 Linux 系 统 下 使 用 。 


MySQL 异 步 复制 及 semi-sync 半 同步 复制 都 是 基于 MySQL binlog 的 ， 原 生 复 制 则 是 完全 异步 的 。 异 步 复制 的 工作 机 制 是 : master 无 需 保 证 slave 接 收 并 执行 了 binlog， 异 步 复制 能 够 使 master 获 取 到 最 
大 性 能 ， 但 是 slave 可 能 存在 延迟 ， 主 从 数据 无 法 保证 一 致 性 ， 在 不 停止 服务 的 前 提 下 ， 如 果 master 宕 机 后 提升 slave 为 新 的 主 库 ， 就 会 丢失 数据 。semi-sync 在 异步 复制 基础 上 增加 了 数据 保护 的 步骤 ， 这 
样 ，master 必 须 确认 slave 收 到 binlog 后 (但 不 保证 slave 执 行 了 事务 ) 才 会 最 终 提 交 事 务 ， 若 再 结合 MHA 高 可 用 架构 ， 那 么 master 挂 掉 之 后 ，slave 可 以 在 应 用 完 所 有 relay log 后 再 切换 成 master 提 供 的 读 / 
写 服务 。 


相对 于 MySQL 源 生 复制 和 semi-sync 半 同步 复制 ，Galera Cluster 全 同步 复制 的 差异 如 下 。 


. 同步 复制 ， 主 备 无 延迟 ， 一 个 节点 宕 机 后 ， 其 他 两 个 节点 可 以 立即 提供 服务 ， 而 semi-sync 需 要 应 用 (执行 ) 完 所 有 telay log， 并 依赖 第 三 方 高 可 用 软件 实现 数据 不 丢失 。 


- 事务 冲突 检测 可 保证 数据 的 一 致 性 ， 多 个 节点 可 以 同时 读 / 写 数据 ， 可 以 极 大 简化 数据 访问 。 


- Galera Cluster 47 23] TAH, MySQL 5.7/MariaDB 10.0 版 本 之 前 ，slave SQL 线程 只 有 一 个 ， 这 也 是 导致 slave 落 后 mastet 的 主要 原因 ， 饱 受 诉 病 。 


9.1 Codership Galera Cluster 的 特性 和 优 缺 点 


Codership Galera Cluster 具 有 如 下 特性 。 
` 全 同步 复制 ， 事 务 要 么 在 所 有 节点 者 提交， 要 么 都 回 滚 。 
* 多 主 复制 ， 可 以 在 任意 节点 进行 写 操作 。 
. 在 从 服务 器 上 并 行 应 用 事件 ， 是 真正 意义 上 的 并 行 复制 。 
* 节点 自动 配置 ， 故 障 节 点 自动 从 集群 中 移 除 。 当 故障 节点 再 次 加 入 集群 时 ， 无 需 手 工 备份 当前 数据 库 并 拷贝 至 故障 节点 。 
同步 无 延迟 ， 可 保证 数据 的 一 致 性 。 
. 具有 应 用 程序 的 兼容 性 ， 无 需 更 改 应 用 程序 ， 具 有 原生 的 MySQL 接 口 。 
* 每 个 节点 都 包含 完整 的 数据 副本 。 
. 各 个 节点 的 同步 复制 ， 不 是 通过 binlog 实 现 的 ， 而 是 通过 galefa.cache 实 现 的 。 
Codership Galera Cluster 也 有 一 些 需要 注意 的 地 方 ， 比 如 ， 在 生产 环境 下 ， 建 议 集群 配置 3 个 节点 ， 否 则 很 容易 产生 脑 裂 。 


Galera Cluster 架 构图 如 图 9-1 所 示 。 


图 9-1 Galera Cluster 集 群 多 点 读 / 写 


该 架构 具有 如 下 优点 。 


. 是 真正 的 多 主 架 构 ， 任 何 节点 都 可 以 进行 读 / 写 操作 ， 无 需 进行 读 / 写 分 离 。 
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. 无 集中 管理 ， 可 以 在 任何 时 间 点 失去 任何 一 个 节点 ， 集 群 的 正常 工作 不 受 影响 。 
` 节点 宕 机 不 会 导致 数据 丢失 。 
“ 对 应 用 透明 ， 无 需 更 改 应 用 或 只 需要 进行 极 小 的 更 改 。 
该 架构 的 缺点 也 很 明显 ， 如 下 : 
. 加 入 新 节点 时 开销 大 ， 需 要 复制 完整 的 数据 。 
` 不 能 有 效 地 解决 写 扩展 问题 ， 所 有 的 写 操作 都 将 发 生 在 所 有 节点 上 。 
" 有 多 少 个 节点 就 有 多 少 重 复 的 数据 。 
. 由 于 事务 提交 需要 跨 节点 通信 (分 布 式 事务 ) ， 因 此 写 入 会 比 主 从 复制 慢 很 多 ， 随 着 集群 节点 的 增加 ， 写 入 也 会 变 得 越 来 越 慢 ， 自 然 死 锁 和 回 滚 也 会 更 加 频繁 。 


对 网 络 要 求 非常 高 ， 如 果 网 络 出 现 波动 或 机 房 被 ARP 攻 击 ， 则 令 造 成 两 个 节点 失 联 ，Galera Cluster 集 群 会 发 生 脑 裂 ， 服 务 将 不 可 用 。 


9.2 Codership Galera Cluster 的 局 限 性 


Codership Galera Cluster 的 局 限 性 主要 包含 以 下 几 方 面 。 


- 目前 的 复制 仅 支 持 InnoDB 存 储 引 擎 。 任 何 写 入 其 他 引擎 的 表 ， 包 括 mysdqlL*# 表 都 不 会 被 复制 。 但 是 DDL 语 名 会 被 复制 ， 因 此 创建 用 户 将 会 被 复制 ， 但 是 insett into 
mysqgl.userhttp://www.hzcoutse.com/resoutce/rteadBook?path=/opentesoutces/teach_ebook/uncompressed/15847/OEBPS/Text/... 在 uset 表 质 入 数据 时 不 会 被 复制 。 


DELETE 操 作 不 支持 没有 主键 的 表 。 没 有 主键 的 表 在 不 同 节点 上 的 顺序 将 不 同 ， 如 果 执 行 SELECThttp://www.hzcoutse.com/resoutce/readBook? 
path=/openresources/teach_ebook/uncompressed/15847/OEBPS/Text/...LIMIThttp://www.hzcoutrse.com/resource/readBook?path=/opentesources/teach_ebook/uncompressed/15847/OEBPS/Text/...， 将 出 现 不 同 的 


结果 集 。 


: LOCK/UNLOCK TABLES/FLUSH TABLES {explicit table list} WITH READ LOCK # X 4$ X 4i, VAR E AKGET LOCK0、RELEASE_LOCK0O， 但 FLUSHTABLES WITH READ LOCK 支 持 全 局 表 


: General Query Log 日 志 不 能 保存 在 表 中 。 如 果 开 局 查询 日 志 ， 则 只 能 保存 到 文件 中 。 

` 不 能 有 大 事务 写 入 ， 不 能 超过 wstep_max_ws_tows=131072 ( 行 ) ， 且 写 入 集 不 能 超过 wstep_max_ws_size=1073741824 (1G) ， 否 则 客户 端 直接 报错 。 

- 由 于 集群 是 乐观 锁 并 发 控制 ， 因 此 ， 在 commit 阶 段 会 有 事务 冲突 发 生 。 如 果 有 两 个 事务 在 集群 中 的 不 同 节 点 上 对 同一 行 写 入 并 提交 ， 则 失败 的 节点 将 回 滚 ， 客 户 端 返回 死 锁 报 错 。 
. XA 分 布 式 事务 不 支持 Codetrship Galera Clustef， 在 提交 时 可 能 会 回 滚 。 


.整个 集群 的 写 入 吞吐 量 是 由 最 弱 的 节点 限制 的 ， 如 果 有 一 个 节点 变 得 缓慢 ， 比 如 硬盘 故障 (RADIR RE) ， 那 么 整个 集群 将 是 缓慢 的 。 为 了 达到 稳定 的 高 性 能 要 求 ， 所 有 的 节点 应 使 用 统一 的 
硬件 。 


9.3 Codership Galera Cluster 的 工作 原理 


Galera Cluster 使 用 的 是 基于 认证 的 复制 ， 其 流程 分 别 如 图 9-2 和 图 9-3 所 示 。 
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图 9-2 ”认证 复制 工作 流程 


当 客户 端 发 起 commit 命 令 时 (此 时 仍然 没有 发 生 真 正 的 commit) ， 事 务 内 更 改 的 行 都 会 被 搜集 到 一 个 写 入 集 (writeset) 中 ， 该 写 入 集 随 后 会 被 复制 到 其 他 节点 ， 并 且 会 在 每 个 节点 上 使 用 搜索 到 的 
主键 进行 确认 性 认证 测试 ， 从 而 判断 该 写 入 集 是 否 可 以 被 应 用 。 如 果 认 证 测试 失败 ， 写 入 集会 被 丢弃 并 且 原 始 事务 会 被 回 滚 ; 如 果 认 证 成 功 ， 事 务 会 被 提交 并 且 写 入 集会 在 剩余 节点 上 被 应 用 。 事 务 提交 响 
应 时 间 是 由 网 络 往返 时 间 、 远 端 节点 认证 时 间 决 定 的 。 


Cllent Server Group Another server 
UPDATE 
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A9-3 ”认证 复制 工作 原理 
即使 当前 数据 并 没有 真正 地 写 入 当前 节点 ， 只 要 其 他 节点 验证 成 功 了 ， 就 会 返回 成 功 的 信号 。 因 此 这 里 的 全 同步 复制 ， 其 实 是 虚拟 的 全 同步 复制 ， 这 段 时 间 内 ， 数 据 是 有 延迟 的 ， 但 很 小 ， 如 果 应 用 程 


序 访问 的 是 远 端 节点 ， 读 到 的 数据 是 未 改变 之 前 的 旧 数 据 ， 如 图 9-4 所 示 。 这 里 可 以 通过 设置 参数 wsrep_causal_reads=ON 来 避免 ,这 种 情况 下 需要 等 待 远 端 节点 应 用 完事 务 后 ， 表 返回 客户 端 读 取 请 求 ， 
这 将 增加 读 取 的 响应 时 间 。 而 真正 意义 上 的 全 同步 复制 ， 是 要 等 所 有 节点 事务 都 提交 落地 ， 才 成 功 返 回 客户 端 。 因 此 虚拟 全 同步 复制 的 性 能 会 更 好 一 些 。 


master node (noed 1) noed 2 noed 3 


statement (DML) 


replicate 


certify 
commit finalized 


commit finalized 


commit finalized 


图 9-4 认证 复制 工作 原理 


Galera Cluster 内 部 实现 了 flow control 限 流 措施 ， 作 用 就 是 协调 各 个 节点 ， 保 证 所 有 节点 执行 事务 的 速度 大 于 队列 增长 速度 ， 从 而 避免 丢失 事务 。 实 现 原理 很 简单 : 在 整个 Galera Cluster 集 群 中 ， 同 
一 时 间 只 有 一 个 节点 可 以 广播 消息 (数据 ) ， 每 个 节点 都 会 获得 广播 消息 的 机 会 (获得 机 会 后 也 可 以 不 广播 ) ， 当 慢 节 点 的 待 执行 队列 超过 一 定 长 度 后 ， 它 会 广播 一 个 FC_PAUSE 消 息 ， 所 以 节点 收 到 消息 
后 都 会 暂缓 广播 消息 并 不 提供 写 操作 ， 直 到 该 慢 节 点 的 待 执行 队列 长 度 减 小 到 一 定 长 度 后 ，Galera Cluster 数 据 同 步 又 开始 恢复 。 


下 面 介 绍 Galera Cluster 涉 及 的 变量 参数 。 

: wsrep. provider options—gcs.fc limit: 待 执行 队列 长 度 超 过 该 值 时 ，flow control 被 触发 ， 默 认 值 是 16。 

- wstep provider options—gcs.fc factor: 待 执 行 队列 长 度 小 于 (gcs.fc_factorkgcs.fc_jlimib 该 值 时 ， 集 群 恢复 同步 复制 ，gcs.fc_factot 默 认 值 是 1。 
下 面 是 状态 参数 的 说 明 。 


: wstep flow control paused: 表示 集群 是 否 暂 停 复制 ， 值 大 于 0 代表 集群 已 被 限 流 ， 将 无 法 写 入 ， 但 可 以 查询 。 


- wstep_flow_control_sent: 表示 该 节点 已 经 停止 发 送 事务 多 少 次 。 


: wstep. flow control recv: 表示 该 节点 已 经 停止 接收 事务 多 少 次 。 


: wstep local send queue avg: 表示 发 送 队 列 的 平均 长 度 ， 值 大 于 0 代表 集群 已 被 限 流 ， 将 无 法 写 入 ， 但 可 以 查询 。 


: wstep local recv. queue avg: 表示 接收 队列 的 平均 长 度 ， 值 大 于 0 代表 节点 压力 过 大 ， 集 群 将 进入 限 流 措施 ， 无 法 写 入 ， 但 可 以 查询 。 


当 查 看 error.log 日 志 时 ， 可 以 发 现 如 下 信息 ， 表 示 已 经 暂停 复制 。 


151221 17:55:45 [Note] WSREP: Provider paused at 
c9allbfb-9cf5-11e5-a2f0-3f93095314dc3:3314 (4) 


新 节点 加 入 流程 的 示意 图 如 图 9-5 所 示 。 


Joiner node 


. load 


GaleraReplication 


图 9-5 ”新 节点 加 入 


在 图 9-5 中 ， 新 加 入 的 节点 叫 Joiner， 给 Joiner 提 供 复制 的 节点 叫 Donor。 在 该 过 程 中 ， 首 先 会 检查 本 地 grastate.dat 文 件 的 seqno 事 务 号 是 否 在 远 端 donor 节 点 (集群 中 被 选中 作为 数据 源 的 节 
FA) galera.cache 文 件 里 ， 如 果 存 在 ， 那 么 进行 Incremental State Transfer (IST) 增 量 同步 复制 ， 把 剩余 的 事务 发 送 过 去 ; 如 果 不 存 在 ， 那 么 进行 State Snapshot Transfer (SST) 全 量 同步 复制 。SST 
有 三 种 全 量 拷贝 方式 : mysqldump、rsync、xtrabackup， 这 三 种 方式 的 说 明 如 表 9-1 所 示 。 


表 9-1 三 种 全 量 拷贝 方式 的 对 比 


备份 工具 xtrabackup 
是 否 锁 表 只 备份 frm 表 结 构 和 MyISAM 引擎 锁 表 
性 能 速度 较 快 


度 快 
ny ETE 不 推 T RHE (f 
f£XtraBackup 2.1.X 版 本 里 ， 使 用 innobackupex 备 份 时 ， 备 份 的 流程 如 下 。 

1) 拷贝 InnoDB 表 数据 。 
2) 执行 全 局 表 读 锁 FLUSH TABLES WITH READ LOCKS, 


3) 拷贝 .frm 和 MylSAM 表 数据 。 


5) 完成 redo log 事 务 日 志 的 后 台 复 制 。 
6) 解锁 UNLOCK TABLES, 
从 上 面 的 流程 可 知 ， 若 备份 的 是 一 张 或 几 张 MylISAM 的 大 表 ， 就 会 造成 锁 表 ， 在 业务 高 峰 期 将 严重 影响 业务 。 因 此 ， 在 XtraBackup2.2.X 版 本 里 进行 了 改进 。 


在 Percona 5.6.16 版 本 里 ， 首 次 引入 了 备份 锁 (MySQLVMariaDB 没 有 备份 锁 ) : 


LOCK TABLES FOR BACKUP; 
LOCK BINLOG FOR BACKUP; 


备份 锁 只 针对 非 InnoDB 引 擎 ， 比 如 MylSAM、ARCHIVE、CSV 引 警 等 ， 这 可 降低 锁 的 粒度 ， 备 份 的 流程 如 下 。 
1) 拷贝 InnoDB 表 数据 。 

2) 执行 表 备 份 锁 。 

3) 拷贝 frm 和 MylSAM 表 数据 。 

4) 执行 binlog 文 件 锁 ， 确 保 日 志 不 发 生变 化 。 

5) 完成 redo log 事 务 日 志 的 后 台 复 制 。 


6) 解 表 锁 。 


8) 解 binlog 锁 。 


9.4 Codership Galera Cluster 的 配置 


9.4.1  Codership Galera Cluster 的 配置 环境 及 安装 


三 个 节点 IP 如 下 。 

node1: 192.168.17.128 

node2: 192.168.17.129 

node3: 192.168.17.130 

Quse 在 生产 环境 下 ， 一 定 要 配置 三 个 节点 ， 这 样 可 以 阻止 脑 裂 问题 ， 更 多 的 节点 不 会 对 写 入 有 很 大 的 提升 ; 相反 ， 节 点 越 多 ， 写 入 性 能 越 差 ! 
Codership Galera Cluster 的 安装 过 程 如 下 。 

(1) 设置 host 解 析 


三 台 服 务 器 的 配置 如 下 : 


# cat /etc/hosts 

192.168.17.128 nodel 
192.168.17.129 node2 
192.168.17.130 node3 


(2) 修改 文件 描述 符 65535 


# vim /etc/security/limits.conf 
* soft nofile 65535 
* hard nofile 65535 
# vim /etc/sysctl.conf 
Fs.file-max-655350 
.ipv4.ip local port range = 1025 65000 


net.ipv4.tcp tw reuse = 1 
修改 完毕 后 ， 重 启 服务 器 生效 。 


(3) 安装 Percona XtraBackup 热 备份 工具 
下 载 地 址 为 : https;//www.percona.com/downloads/XtraBackup/Percona-XtraBackup-2.3.2/binary/tarball/percona-xtrabackup-2.3.2-Linux-x86 64.tar.gz。 


安装 命令 如 下 : 


# tar zxvf percona-xtrabackup-2.3.2-Linux-x86 64.tar.gz 
# cd percona-xtrabackup-2.3.2-Linux-x86 64/bin/ 
# cp -a * /usr/bin/ 


(4) 安装 依赖 包 


命令 如 下 : 


4 yum install lsof -y 
# yum install socat -y 
# 
# 


yum install tar -y 
yum install openssl* -y 


(5) 创建 XtraBackup 备 份 时 的 用 户 名 和 密码 


创建 命令 如 下 : 


# GRANT ALL PRIVILEGES ON *.* TO 'admin'@'localhost' 
DENTIFIED BY '123456'; 


(6) 安装 MariaDB Galera Cluster 集 群 软 件 
Qus Percona/MariaDB4& Galera Clustet 集 群 套 件 都 捆绑 在 各 自 的 发 行 版 里 ， 也 可 以 选择 用 官方 Codetrship 捆 绑 的 MySQL Galera Cluster， 它 的 安装 配置 参数 是 一 样 的 ， 这 里 选择 用 MariaDB Galera Clusteri 
演示 ! 
Codership 的 下 载 地 址 为 : http://releases.galeracluster.com/binary/mysql-wsrep-5.6.27-25.12-linux-x86_64.tar.gz 


Percona 的 下 载 地 址 为 : https://www.percona.com/downloads/Percona-XtraDB-Cluster-56/Percona-XtraDB-Cluster-5.6.26-25.12/binary/tarball/Percona-XtraDB-Cluster-5.6.26-rel74.0- 
25.12.1.Linux.x86 64.tar.gz 


MariaDB 的 下 载 地 址 为 : http://mirrors.accretive-networks.net/mariadb//mariadb-galera-10.0.22/bintar-linux-x86 64/mariadb-galera-10.0.22-linux-x86 64.tar.gz 
安装 命令 如 下 : 


useradd mysql 
tar zxvf mariadb-galera-10.0.22-1inux-x86 64.tar.gz -C /usr/local/ 
cd /usr/local 
ln -s mariadb-galera-10.0.22-linux-x86 64 mysql 
chown -R mysgql:mysql mysql/ 

修改 环境 变量 


=E He =He He HE He 


# vim /root/.bash profile 
PATH-/usr/local/mysql/bin:S$PATH:S$HOME/bin:/usr/local/bin 
# source /root/.bash profile 

# which mysql i 

/usr/local/mysql/bin/mysql 


(7) 配置 参数 


三 个 节点 均 按照 如 下 方式 设置 。 


# vim /etc/my.cnf 
[mysqld] 

server id=128 

# 三 个 节点 的 Server id 要 修改 成 不 一 样 的 

datadir=/data/galera 

Socket-/tmp/mysql.sock 

user=mysql 

Skip-external-locking 

Skip-name-resolve 

character-set-server = utf8 

AREER AEAEE EHH EERE EH EERREE EE HERPES HH RERPEE EH EERREE EHH 

##Galera Cluster 

wsrep provider = /usr/local/mysql/lib/libgalera smm.so 

# 设置 galera 类 库 ni 

wsrep cluster address-"gcomm://192.168.17.128, 192.168.17.129, 192.168.17.130" 
# 设置 集群 IP 


wsrep provider options = "gcache.size=4G" 


+ 设置 gcache (同步 复制 缓冲 池 ) 大 小 ， 默 认 是 128MB， 并 根据 你 的 内 存 定义 。 建 议 生 产 环 境 设置 大 一 些 ， 


wsrep cluster name = MariaDB Galera Cluster 
# 设置 集群 的 名 字 ， 这 里 随便 定义 

wsrep sst auth = admin:123456 

# XtraBackup 备 份 时 的 用 户 名 和 密码 

wsrep sst method = xtrabackup-v2 


# 默认 是 zsync 全 量 拷贝 ， 但 需要 在 donor 节 点 上 执行 全 局 读 锁 (flash tables with read lock) ， 这 里 采用 Xtral 


wsrep node name = nodel 

# 设置 集群 节点 的 名 字 ， 在 第 二 个 节点 上 改 为 node2， 在 第 三 个 节点 上 改 为 node3 
wsrep slave threads = 24 

# 开启 并 行 复制 线程 ， 根 据 CPU 核 数 设置 

wsrep on = ON 

# 开启 全 同步 复制 模式 

wsrep causal reads = ON 

# 节点 应 用 完事 务 才 返回 查询 请 求 

wsrep certify nonPK= ON 

+ 为 没有 显示 申明 主键 的 表 生 成 一 个 用 于 certification test 的 主键 ,默认 为 ON 


#log-bin =  /data/galera/mysql-bin 

# log slave updates = 1 

E 如 果 不 需要 后 面 接 从 库 ， 则 注释 挤 log-bin 和 1og slave updates 
binlog format = ROW 

# binlog 设 置 为 ROW 行 格式 

innodb flush log at trx commit = 0 


# 因为 Galera Cluster 的 节点 恢复 是 通过 远 端 节点 ， 这 里 为 了 性 能 考虑 ， 设 置 为 0， 即 事务 提交 每 隔 1 秒 刷 盘 


innodb autoinc lock mode-2 
# 将 主键 自 增 模式 修改 为 交叉 模式 
query cache size = 0 

# 关闭 查询 缓存 


(8) 三 个 节点 初始 化 安装 


安装 命令 如 下 : 


Backup 热 备份 方式 ， 只 有 在 备份 .1 


避免 新 加 入 集群 采取 State Snapshot Transfer (SST) 全 量 同步 复制 ， 造 成 集群 抖动 。 


Frm 表 结构 文件 才 会 锁 表 


/ 


* cd /usr/local/mysql/ 
# scripts/mysql install db --defaults-file-/etc/my.cnf --user-mysql 


(9) 在 node1 节 点 上 通过 bootstrap 引 导 启 动 


启动 命令 如 下 : 


* /usr/local/mysql/bin/mysqld safe --defaults-file-/etc/my.cnf 
--user-mysql --wsrep-new-cluster & 


: 第 一 次 启动 一 定 要 加 --wsrep-new-cluster 人 参数， 再 次 启动 就 不 需要 了 。 


(10) 在 node2 和 node3 节 点 启动 


启动 命令 如 下 : 


* /usr/local/mysql/bin/mysqld safe --defaults-file-/etc/my.cnf 
--user-mysql & 


至 此 安装 结束 ， 登 录 三 个 节点 ， 执 行 show global status like 'ws?6' NG; 命令 ， 如 果 界 面 如 图 9-6 所 示 ， 则 代表 集群 已 经 正常 工作 。 


wsrep local state 4 


wsrep local state comment Synced 

wsrep cert index size 0 

wsrep causal reads 0 

wsrep_cert_interval 0. 000000 

wsrep incoming addresses 192. 168. 17. 128:3306, 192. 168. 17. 129:3306, 192. 168. 17. 130: 3306 
wsrep evs delayed = m 
wsrep evs evict list 

wsrep evs repl latency 0/0/0/0/0 

wsrep evs state OPERATIONAL 

wsrep gcomm uuid e9b0b897-aed1-116e5-96fc-bf319e89d493 

wsrep cluster conf id 15 

wsrep cluster size 3 

wsrep cluster state uuid 03e946e33-b234-11e5-a7c4-7b1665b324a8 

wsrep cluster status Primar 

wsrep connected 

wsrep local bf aborts 

wsrep local index 

wsrep provider name Galera 

wsrep provider vendor Codership Ov <info@codership. com> 

wsrep provider version 25. 3. 9(r3387) 

wsrep ready | 
wsrep thread count 


图 9-6 ”集群 状态 
以 下 是 图 9-6 中 的 参数 解释 。 
- wsrep_cluster_size 为 3， 代 表 集 群 有 三 个 节点 。 
:wstep_clustet_status 为 Ptimarty， 代 表 节 点 为 主 节 点 ， 可 正常 读 / 写 。 


.wstep_teady 为 ON， 代 表 集 群 已 正常 运行 。 


前 面 已 经 介绍 了 Galera Cluster 的 安装 和 测试 ， 那 么 Java/PHP 应 用 如 何 访问 呢 ? 这 里 借助 第 三 方 代理 软件 HAProxy 进 行 讲 解 ， 这 也 是 Percona 官 方 推荐 的 架构 ， 它 们 可 实现 无 单 点 秒 级 故障 切换 。 在 前 
端 应 用 如 Java 里 的 jdbc 配 置 文件 中 ， 把 IP 改 为 HAProxy， 通 过 HAProxy 把 读 / 写 请 求 轮训 转发 到 后 端 Galera Cluster 的 三 个 节点 上 ， 当 有 一 个 节点 宕 掉 时 ， 通 过 HAProxy 检 测 ， 并 让 该 节点 进行 下 线 处 理 ， 
此 不 会 影响 业务 ， 保 证 业务 7x 24 小 时 不 间断 访问 ， 架 构 如 图 9-19 所 示 。 


Load balancing mechanism (DNS, HTTP redirect, etc) 
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图 9-19 HAProxy+Galera Clustet 架 构图 
下 面 介 绍 HAProxy 结 合 Galera Cluster 实 现 无 单 点 秒 级 故障 切换 时 的 安装 和 配置 过 程 。 
(1) 安装 HAProxy 


安装 命令 如 下 : 


# yum install haproxy -y 


(2) 安装 rsyslog 
安装 命令 如 下 : 


# yum install rsyslog -y 
# vim /etc/rsyslog.conf 


然后 定义 HAProxy 的 输出 log， 在 最 后 一 行 加 入 : 


local2.* /var/log/HAProxy.log 
SModLoad imudp 

SUDPServerRun 514 

# /etc/init.d/rsyslog restart 


重启 系统 日 志 服 务 。 
(3) 修改 文件 描述 符 65535 


命令 如 下 : 


# vim /etc/security/limits.conf 
E File 65535 


* hard nofile 65535 
# vim /etc/sysctl.conf 


.file-max-655350 
.ipv4.ip local port range 
.ipv4.tcp tw reuse = 1 


1025 65000 


人 


修改 完毕 后 ， 重 启 服务 器 生效 。 


(4) 配置 HAProxy 服 务 


HAProxy 配 置 中 包括 以 下 五 大 部 分 。 


- global: 全 局 配置 参数 ， 进 程 级 的 ， 用 来 控制 Haptoxy 局 动 前 的 一 些 进程 及 系统 设置 。 


: defaults: 配置 一 些 默 认 的 参数 ， 可 以 被 ffontend、backend 


、listen 段 继承 使 用 。 


: frontend: 用 来 匹配 接收 客户 所 请 求 的 域名 、uri 等 ， 并 针对 不 同 的 匹配 进行 不 同 的 请 求 处 理 。 


‘backend: 定义 后 端 服务 器 集群 ， 以 及 对 后 端 服务 器 的 一 些 权 重 、 队 列 、 连 接 数 等 选项 的 设置 ， 


- listen: 笔者 理解 为 ffrontend 和 backend 的 组 合体 。 


配置 HAProxy 服 务 的 命令 如 下 : 


笔者 将 其 理解 为 Nginx 中 的 upstream 块 。 


# cat /etc/HAProxy/HAProxy.cf 
global 

# 全 局 参数 的 设置 

log 127.0.0.1 local2 

# 全 局 的 日 志 配 置 ， 使 用 log 关键 字 ， 
maxconn 65535 

* 定义 haproxy 进 程 的 最 大 连接 数 
user haproxy 

group haproxy 

# 设置 运行 HAProxy 的 用 户 和 组 
daemon 

# 以 守护 进程 的 方式 运行 

nbproc 24 


g 


+ 设置 HAProxy 局 动 时 的 进程 数 ， 该 值 的 设置 应 该 和 服务 器 的 CPU 核心 数 一 致 ， 即 常见 的 2 颗 12 核 CPU 的 服务 器 ， 共 有 24 核 ， 则 可 以 将 其 值 设 置 为 <=24 ， 创 建 多 个 进程 数 ， 可 以 减少 每 个 进程 的 任务 队列 ， 但 是 


defaults 
# 配置 默认 的 参数 

log global 

# 继承 global 中 log 的 定义 
option tcplog 

# 启用 日 志 记 录 TCP 请 求 
option dontlognull 

# 启用 该 项 ， 
retries 3 
# 定义 连接 后 端 服务 器 的 失败 重 连 次 数 ， 连 接 失败 次 数 超过 此 值 后 ， 
option redispatch 

# 当 使 用 cookie 时 ，haproxy 会 将 其 请 求 的 后 端 服务 器 的 serverI 
option abortonclose 


将 对 应 后 端 服务 器 标记 为 不 可 用 


D 插 入 cookie 中 ， 以 保证 会 话 的 9 


和 定 使 用 127.0.0.1 上 的 syslog 服 务 中 的 local2 日 志 设 备 ， 记 录 日 志 等 级 为 warning 的 日 志 


E 当 服 务 器 负载 很 高 的 时 候 ， 自 动 结束 掉 当 前 队列 处 理 比较 久 的 链接 


timeout connect 10s 

# 设置 成 功 连 接 到 一 台 服 务 器 的 最 长 等 待 时 间 
timeout client 2m 

+ 设置 客户 端 发 送 数 据 时 的 最 长 等 待 时 间 


timeout server 2m 
# 设置 服务 器 端 回应 客户 端 发 送 数据 时 的 最 长 等 待 时 间 
imeout queue 1m 


# 设置 一 个 请 求 在 队列 里 的 超时 时 间 

frontend mysqlcluster-front 

# 定义 一 个 名 为 mysqlcluster-front 的 前 端 部 分 
bind *:3320 

# 应 用 端 php/java 连 接 haproxy 的 端口 号 

mode tcp 

# tcp 是 四 层 模 式 

default backend mysqlcluster-back 

+ 定义 一 个 名 为 mysqlcluster-lback 的 后 端 部 分 
frontend stats-front 

# 定义 一 个 名 为 stats-front 的 前 端 部 分 


bind *:80 
# haproxy 监 控 页 面 的 端口 号 
mode http 


# http 是 七 层 模 式 

default backend stats-back 
# 定义 一 个 名 为 stats-back 的 后 端 
backend mysqlcluster-back 
mode tcp 

balance roundrobin 

# 轮 询 模式 

option httpchk 


部 分 


13306 inter 2000 rise 3 f 


ESSION 持 久 性 。 此 时 ， 如 果 后 端的 服务 器 宕 挤 ， 那 么 


13306 inter 2000 rise 3 { 


# 开启 对 后 端 服务 器 的 健康 检测 

server 192.168.17.128 192.168.17.128:3306 check port 
server 192.168.17.129 192.168.17.129:3306 check port 
# port 13306 端 口 是 调 用 后 端 DB 的 服务 ， 用 来 感知 Galera Clust 
# weight 10 代 表 权 重 ， 值 越 小 ， 转 发 的 请 求 就 越 少 

server 192.168.17.130 192.168.17.130:3306 check port 
backend stats-back 

mode http 

stats uri /HAProxy/stats 

# 定义 监控 页 面 URL 地 址 

stats auth admin:123456 

# 定义 页 面 访问 的 用 户 名 和 密码 

stats refresh 3s 

# 定义 每 3 秒 自动 刷新 页 面 


(5) 启动 HAProxy 服 务 


启动 命令 如 下 : 


er 节点 wsrep cluster status 状 


13306 inter 2000 rise 3 f 


all 3 weight 10 

fall 3 weight 10 
态 值 是 否 为 Primary 

all 3 weight 10 


du 


客户 端 


过 多 的 进程 数 也 可 能 - 


日 志 中 将 不 会 记录 空 连接 。 所 谓 空 连接 ， 就 是 上 游 的 负载 均衡 器 或 者 监控 系统 为 了 探测 该 服务 是 否 存活 可 用 ， 需 要 定期 连接 或 者 获取 某 一 国定 的 组 件 或 页 面 ， 或 者 探测 扫描 端口 是 否 在 监听 或 开放 等 动作 。 官 方 文档 中 ? 


的 cookie 是 不 会 刷新 的 ; 如 果 设 置 此 参数 ， 则 会 将 客户 的 请 求 强制 。 


# /etc/init.d/haproxy start 


(6) 访问 监控 页 面 URL 


打开 浏览 器 ， 输 入 URL: http://192.168.17.131/haproxy/stats， 第 一 次 会 让 你 输入 用 户 名 和 密码 ， 如 图 9-20 所 示 。 


Windows 安全 


位 十 HAProxy Statistics 的 服务 192.168.17.131 ERAP STE, 


SS: 此 服务 器 要 求 以 不 安全 的 方式 发 送 您 的 用 户 名 和 密码 ( 没 有 安 
SE) 


admin 


图 9-20 HAproxy 登 录 页 面 
这 里 输入 刚才 定义 好 的 用 户 名 为 admin， 密 码 为 123456。 


图 9-21 是 进入 后 的 监控 页 面 ， 这 里 可 以 看 到 从 库 192.168.17.129/130 是 DOWN 状 态 ， 这 是 因为 HAProxy 在 调用 后 端 slave 的 9200 端 口服 务 ， 我 们 还 没有 在 该 机 器 里 配置 ， 所 以 这 里 显示 DOWN 状 态 。 


HAProxy version 1.5.4, released 2014/09/02 
Statistics Report for pid 2605 


» General process information 
ective UP oeckuo UP Display option: External resources: 
* Primary site 


pid = 2805 (process #1, noproc = 1) active UP, going down backup UP, going down * Scope: 
- Updates (v1.5 


uptime = Oe CNC4mz5s active DOWN, going up | |bsckup DOWN, going uc Dove 

system limits: memmsx = unimited; ulmit-n = 131285 imi TR d d * Hide DOWN" servers 
maxsock = 131035; maxconn = 9535, maxpipes = 2 
current conns = 1; current pipes = MO conn teta = Vsec active or backup DOWN ior maintensnce (MAINT) * Retesh now 


Running tasks: 1/9; idle = 100 36 active or backup SOFT STOPPED for maintenance * CSV export 
Note: "NOLES DRAIN" = UP with losd-osilancing d'ssbled 


. Queue Sessionrate | Sessions | Bytes Denied | Errors | Wamims Seer O/O O 
DEI mae | tte | oe | | ste [ome | one | toes _| ree | sieves | tees | oo] ont | sam | meow | pon | Sees | see | mee | sein | sevens N Smet ne ee es ms | saree 


* Onine manys 
active or baskup DOWN rot checked * Dissbe retes 


mysqlolustor-fromt 


stats-front 


EN MM TAM UM X 2 200 ee E 
em | max | timit omen [timit Cur e] uem Tetai Tet [| m | owi mem mem [men [Sem Nesp | me [mete [som user | waht [et ek cik Omn eme | Te 


Frontend 


mysglcluster-bac k 


Total LastChk Eck 
192 168.17.128 — uP * LTOK/200 in 028m: 


Cz | 6| 9| [9 er cip LIS (S502 n 1002ms a es — 
eB WC E E DNE or ae Se) a tam 3 L7ST5/513 in 100206 i ea | HC 


Backend 5 4m25s UP 


=i ‘int Gre Lei Se Mor Ust Tai Net | ast Mm Ont Mee Resp Re Com Rp Rer Ress Sintes Lehi | Wahi [et Bek D Des Dese | Trte 


Beckerd 0 1 € 554 Os 4m25= UP 


图 9-21 HAproxy 监 控 状 态 
(7) 配置 Galera Cluster 的 复制 ， 检 测 13306 端 口服 务 


命令 如 下 : 


# yum install xinetd -y 


(8) 安装 xinetd 服 务 


命令 如 下 : 


# vim /etc/services 


增加 13306 服 务 ， 在 最 后 一 行 加 入 : 


Galera Cluster check 13306/tcp * Galera Cluster check 


然后 修改 Galera_Cluster_ check 文件 ， 命 令 如 下 : 


# vim /etc/xinetd.d/Galera Cluster check 

# default: on 

* description: Galera Cluster check 

service Galera Cluster check 

{ 

# this is a config for xinetd, place it in /etc/xinetd.d/ 
disable = no 

flags = REUSE 

socket_type = stream 

port 13306 

wait no 

user = nobody 

server = /usr/bin/galera check 

log_on failure += USERID 

only from = 0.0.0.0/0 

# recommended to put the IPs that need 

# to connect exclusively (security purposes) 

per source = UNLIMITED 


再 创建 Galera Cluster 的 复制 检测 脚本 ， 这 个 脚本 就 是 HAProxy 调 用 的 ， 命 令 如 下 : 


# vim /usr/bin/galera check 
#!/bin/bash 
BASEDIR-/usr/local/mysql/bin 

MYSQL USERNAME-root 

MYSQL PASSWORD-123456 

WSSREP STATUS-'SBASEDIR/mysql --host-localhost -.user-SMYSQL USERNAME 
--password-SMYSQL PASSWORD -e "show status like 'wsrep . local | State';" | awk '{if 
(NR!=1) {print $2}}' ea 
if [ "SWSSREP STATUS" == "4" |] 
then B 


4 mysql is fine, return http 200 

/bin/echo -e "HTTP/1.1 200 OK\r\n" 

/bin/echo -e "Content-Type: Content-Type: text/plain rM" 
/bin/echo -e "\r\n" 

/bin/echo -e "MySQL is running. V rMn" 

/bin/echo -e "\r\n" 


else 


4 mysql is fine, return http 503 

/bin/echo -e "HTTP/1.1 503 Service Unavailable\r\n" 
/bin/echo -e "Content-Type: Content-Type: text/plain rM" 
/bin/echo -e "\r\n" 

/bin/echo -e "MySQL is *down*.\r\n" 

/bin/echo -e "\r\n" 


这 里 定义 了 wsrep_ local_state 是 否 等 于 4， 如 果 等 于 ， 则 返回 OK 状态 ; 如 果 不 等 于 4， 则 认定 该 node 节 点 宕 机 ， 不 会 把 请 求 转发 给 它 。 图 9-22 列 举 了 四 种 状态 。 


Comment Description 


Node 1s joining the cluster 
Donor/Desynced Node 1s the donor to the node joining the cluster 
Node has joined the cluster 


Node 1s synced with the cluster 


图 9-22  wstep local statedA A 
下 面 赋予 /usr/bin/galera_check 可 执行 权限 ， 命 令 如 下 : 


# chmod 755 /usr/bin/galera check 


执行 下 面 的 脚本 ， 如 看 到 如 下 信息 代表 节点 运行 正常 。 


# /usr/bin/galera check 

HTTP/1.1 200 OK | 

Content-Type: Content-Type: text/plain 
MySQL is running. 

# /etc/init.d/xinetd start 


可 以 看 到 端口 已 经 启动 了 ， 如 图 9-23 所 示 。 


[root@master J]# netstat -ntlp | grep 13306 


tcp 0 0 :::13306 vei LISTEN 1122/xinetd 
[root@master  ]t 


过 监控 页 面 可 以 看 到 全 部 node 节 点 均 正 常 ， 如 图 9-24 所 示 。 


HAProxy version 1.5.4, released 2014/09/02 
Statistics Report for pid 1583 


> General process information 
active UP bacup UP Display option: External resources: 

pid = 1282 (process #1, nbproc = 1) active UP, going cown backup UP, going down * Scope: e Fumes 

uptime = 0c 0h00m275 

system limite: memmax = unlimitec; ulimit-r = 121085 


" ; nee ; e Updatss [v1.5) 
active DOWN, going up bsckup DOWN, going up * Hide DOWN serves pes 
———— e Online manual 


mexsock = 131065, maxconn = maxpipes = 0 active or baGiup DOWN not checked e Disable refresh 


current conns = 1; current p pes = 0/0; conn rete =Osec active or bectup DOWN ior maintenance (MAINT) * Retresh now 
Running iada: 1/5 idie s 100 % active or bsGup SOFT STOPPED for maintenance * CSV export 
Note: "NDLBWDRAN = UP with load-balancing dissblac. 


mysalcluster-front 


| Session rate Sessions | | Server 
| Cur Max | Limit ——— Limit —— 


Frontend 0 0 65 535 


stats-front 
Session rate 
Cur | Max Limit Cur | Max 
Frontend 


mysalciuster-back 


Gueue Bytes | Denied Errors 
Cur | Max Limit | Cur | Max | Limit | Cur | Max | Limit | Total LbTot Last In Out Req | Resp Req | Conn Resp | Rot | Redis Woht Act Bek | Chk | Dwn Dwntme 
192.168.17.128 - - 0 0 0 0 0| 0 pe EU mae 0 
ETE : | 2| L'O&2 inim | 10 |v | - | € 
192. 108. 7.130 s - 0 0 0 LTOK/200 in 20ms 0 |Y|- c 
0 o 


0 
=: 
0 
0 


stats-back 


Queue | sessionrae | sessimse | Bes | Denied | Errors | Warnings 


Cur | Max | Limit | Cur | Max | Limit | Cur | Max Limit | Total | Lb?ot | Last In | Out Req | Resp Req Conn Resp Retr Redis — 
Becerd o 0 1 3 1 18 818 369 247 0 0 2 0 o 0 


0 
0 
0 


Backend 


0 
- 


图 9-24 HAProxy 监 控 图 


[root@MHA “]# mysql -h192.168.17.131 -uadmin -pl23456 -P3320 -e "show variables like 'wsrep node name’ ;" 
Warning: Using a password command line interface can be insecure. 


wsrep node name | nodel 
[root@MHA ^] 


[root@MHA ~]# mysql -h192. 168. 17. 131 -uadmin -p123456 -P3320 -e "show variables like 'wsrep node name' ;" 
Warning: Using a password command line interface can be insecure. 


wsrep node name | node2 


[root@MHA ^] 
[root@MHA ~]# mysql -h192. 168. 17. 131 -uadmin -pl23456 -P3320 -e "show variables like 'wsrep node name';" 


LI 


Warning: Using a password command line interface can be insecure. 


wsrep node name | node3 


图 9-25” 轮 询 转 发 请 求 


第 10 草 ”OneProxy 分 库 分 表 的 搭建 与 管理 


随 着 网 站 的 壮大 ，MySQL 数 据 库 架 构 一 般 会 经 历 如 图 10-1 所 示 的 演进 过 程 。 


EM (EER KHE EZA ( 主 库 写 、 多 台 从 读 ) 上 >| 单 实例 分 表 


图 10-1 MySQL 数据 库 架 构 的 演进 


当 数 据 很 小 时 ， 只 用 一 台 机 器 也 许 就 能 打住 访问 压力 ;， 当 数据 量变 大 时 ， 最 初 可 以 通过 增加 硬件 〈 比 如， 加 内 存 、 换 3SD 硬 盘 ， 或 者 采购 性 能 很 强劲 的 小 型 机 ) 的 方法 去 解决 。 如 果 数 据 量 越 来 越 大 ， 
则 最 好 从 架构 层 出 发 进行 改进 ， 可 以 采用 读 / 写 分 离 的 方式 ， 同 时 采用 多 人 台 slave 备 机 提供 读 取 业务 ， 这 样 就 降低 了 数据 库 的 负载 。 


随 着 业务 的 进一步 发 展 ， 一 台 主 库 的 数据 写 入 将 成 为 瓶颈 ， 如 电 商 秒杀 场景 。 依 靠 表 的 user_id 取 模 ， 把 数据 平均 分 散 到 不 同 的 小 表 ， 表 分 布 到 各 台 机 器 上 的 方式 ， 可 以 看 成 是 数据 迁移 。 


为 什么 要 分 库 分 表 ? 原因 如 下 : 


. 单个 库 的 数据 容量 太 大 ， 单 个 DB 存储 空间 不 够 。 

. 单个 库 表 太 多 ， 查 询 时 ， 打 开 表 操作 也 消耗 系统 资源 。 

` 单个 表 容 量 太 大 ， 查 询 时 ， 扫 描 行 数 过 多 ， 磁 盘 I/O 大 ， 查 询 缓慢 。 
“ 单个 库 能 承载 的 访问 量 有 限 ， 可 高 的 访问 量 只 能 通过 分 库 分 表 实 现 。 


当 一 个 表 太 大 不 利于 维护 时 ， 可 考虑 将 大 表 拆 分 成 小 表 ， 当 然 ， 这 些 表 是 属于 同一 个 数据 库 的 ， 这 种 技术 称 为 分 表 ;， 当 一 个 数据 库 的 处 理 能 力 不 够 支撑 业务 ， 增 加 CPU 的 作用 也 十 分 有 限时 ， 就 可 能 需 
要 将 部 分 表 移 到 别 的 数据 库 ， 以 增加 系统 处 理 能 力 ， 这 种 技术 称 为 分 库 ; 通过 精心 的 数据 模型 设计 ， 将 大 的 业务 表 拆 分 成 小 表 ， 再 将 一 系列 小 表 分 到 不 同 的 服务 器 ， 使 得 每 台 服 务 器 都 能 独立 处 理 部 分 业 
务 ， 这 种 技术 称 为 水 平 拆 分 ， 俗 称 分 库 分 表 。 分 表 的 数量 可 以 和 物理 的 机 器 数 不 一 致 ， 分 表 数 量 称 为 逻辑 份 数 ， 分 库 的 数量 称 为 物理 份 数 ， 当 逻辑 份 数 大 于 物理 份 数 时 ， 就 可 以 迅速 获得 水 平 扩展 能 力 。 


当 使 用 传统 商业 数据 库 时 ， 必 须 通 过 应 用 层 修改 代码 来 实现 ， 现 在 流行 的 做 法 是 将 应 用 开发 语言 统一 〈 比 如 用 统一 的 Java 框 架 ) 起 来 ， 然 后 编写 统一 的 数据 访问 层 (比如 TDDL、ZDAL 等 ) 。 这 种 做 法 
在 大 并 发 量 下 的 性 能 上 有 一 定 的 优势 ， 可 以 减少 一 次 网 络 交互 ， 但 在 开发 上 绑 定 了 特定 的 开发 语言 ， 需 要 有 强大 的 配置 推送 体系 ， 并 且 需 要 有 强大 的 运 维 团 队 来 支持 。 当 后 台 使 用 的 是 MySQL 数 据 库 ， 或 兼 
容 MySQL 协 议 的 数据 库 时 ， 就 可 以 不 用 修改 应 用 程序 ， 使 用 OneProxy 来 实现 TDDL、ZDAL 的 功能 ， 将 后 端的 多 台 MySQL 虚 拟 成 一 台 MySQL 提 供给 上 层 应 用 ， 对 应 用 相对 透明 地 实现 分 库 分 表 的 需求 ， 从 
而 快速 获得 MySQL 上 的 水 平 扩展 能 力 。 


OneProxy 可 以 轻松 实现 MySQL 的 横向 扩展 ， 突 破 单 台 MySQL 的 限制 ， 将 数据 库 的 同 库 分 区 表 (范围 分 区 、 列 表 分 区 、 哈 希 分 区 ) 扩展 到 跨 库 的 分 区 表 (将 不 同 的 分 区 放 到 不 同 的 MySQL 主 从 集群 
上 ) ， 通 过 对 单 库 事务 及 绝 大 部 分 跨 库 查 询 的 透明 支持 ， 实 现 对 应 用 相对 非常 透明 的 分 布 式 数据 库 的 架构 支持 ， 使 得 应 用 在 进行 少量 修改 的 情况 下 就 可 以 切换 到 分 库 分 表 的 分 布 式 互联 网 架构 上 ，OneProxy 
内 置 的 故障 检测 机 制 ， 可 以 让 应 用 的 开发 变 得 非常 简单 。 


对 程序 来 讲 ， 就 是 访问 一 张 User 表 。 后 面 怎么 划分 ， 按 照 什么 规则 划分 ， 都 不 用 管 。 例 如 ， 客 户 端 插入 user_id: 1-10 十 条 数据 ， 会 通过 OneProxy 内 置 的 SQL 解释 器 分 析 SQL， 按 照 range 规 则 或 hash 
规则 ， 将 客户 端的 请 求 自动 分 发 到 后 端 DB 上 ， 智 能 实现 透明 分 库 分 表 ， 每 台 DB 上 单独 保存 着 分 片 后 的 数据 。 


分 表 后 的 示意 图 如 图 10-2 所 示 。 


Table 


Table 


图 10-2 ” 拆 分 Uset 表 


10.1 OneProxy 分 库 分 表 的 搭建 


10.1.1 ”配置 与 安装 


OneProxy 分 库 分 表 的 配置 环境 如 下 。 
OneProxy: 192.168.17.131 
Master1: 192.168.17.128 


Master2: 192.168.17.129 


(1) 设置 host 解 析 


3 台 服 务 器 的 配置 命令 如 下 : 


# cat /etc/hosts 
192.168.17.128 masterl 
192.168.17.129 master2 
192.168.17.131 oneproxy 


(2) 安装 OneProxy (无 需 安 装 可 执行 文件 ) 


首先 在 官网 下 载 安装 文件 ， 下 载 地 址 为 http://www.onexsoft.com/。 安 装 命令 如 下 : 


# wget 
http://www.onexsoft.cn/software/oneproxy-rhel6-linux64-v5.8-ga.tar.gz 
# tar zxvf oneproxy-rhel6-linux64-v5.8-ga.tar.gz 


(3) 修改 文件 描述 符 65535 


修改 文件 描述 符 65535 命 令 如 下 : 


# vim /etc/security/limits.conf 
* soft nofile 65535 

* hard nofile 65535 

# vim /etc/sysctl.conf 
Fs.file-max-655350 
net.ipv4.ip local port range = 1025 65000 
net.ipv4.tcp tw reuse = 1 


修改 完毕 后 ， 通 过 reboot 命 令 重启 服务 器 生效 。 
(4) 创建 加 密 密 码 
创建 加 密 密 码 的 命令 如 下 : 


4 ./mysqlpwd 123456 
9D7E55EAF8912CCBF32069443FAC452794F8941B 


这 里 是 对 密码 123456 进 行 加 密 。 
(5) 配置 OneProxy 服 务 


配置 OmeProxy 服 务 的 命令 如 下 : 


# cat sharding start.sh 
#/bin/bash 
export ONEPROXY HOME=/root/oneproxy 
S(ONEPROXY HOME}/oneproxy --keepalive --proxy-address-:3317 \ 
--proxy-master-addresses-192.168.17.128:33068groupl \ 
--proxy-master-addresses-192.168.17.129:330680group2 \ 
--proxy-user-list-admin/9D7E55EAF8912CCBF32069443FAC452794F8941BGtest \ 
--admin-address-:4041 \ 
--proxy-part-tables-$(ONEPROXY HOME}/part.txt \ 
—-proxy-parallel-degree=8 \ 
—-event-threads=8 \ 
--proxy-group-policy-groupl:0 --proxy-group-policy-group2:0 \ 
--proxy-group-security-groupl:0 --proxy-group-security-group2:0 \ 
--log-file-$(ONEPROXY HOME)/oneproxy.log \ 
--pid-file-$(ONEPROXY HOME)/oneproxy.pid 


其 中 ， 参 数 解释 如 下 。 

. --keepalive: 表示 在 oneproxy 进 程 宕 掉 ， 则 自动 重启 。 

- -proxy-address: 表示 定义 前 端 Java、PHP 程 序 连接 的 端口 ， 这 里 是 3317。 

` --proxy-master-addresses: 表示 定义 主 库 的 IP 地 址 : 端口 : 组 名 (可 以 随便 定义 ， 主 要 是 为 了 分 库 分 表 后 的 路 由 分 组 ) 。 


. -proxy-group-policy: 表示 设置 读 / 写 分 离 的 策略 ， 总 共 支持 8 种 策略 ， 如 图 10-3 所 示 。 其 中 4 种 重点 策略 如 下 。 


MySQL [inone)]> LIST POLICY: 


pA 


| POLICY | MEMO | 
和 
aster En | read and write on master database only | 
ES E read and write on master, read filover to slave if master fail | 
on master, read on slave | 
master, read on master and slaves | 
one master, read on masters and slaves | 
any masters, read on masters and slaves | 
simple query on master, big query on slaves | 
JU ue | rite : simple query on master, big query on masters and slaves | 


diis cupis ERR acti ee tt inti un selmi ba Betten 


8 rows in set (0.00 sec) 


: read slave: 读 在 从 库 上 ， 当 从 库 发 生 宕 机 或 者 同步 延迟 ， 强 制 请 求 走 主 库 。 


- read balance: 读 在 主 库 和 从 库 上 。 


` big slave: 复杂 的 SQL 如 count(9、groupb by、join 等 查询 访问 从 库 。 

- big balance: 功能 与 read_balance 类 似 。 
- --proxy-user-list: 定义 前 端 Java、PHP 程 序 连接 的 用 户 名 、 密 码 和 数据 库 名 。 
- -admin-address: 定义 OneProxy 后 侣 管理 端口 。 


* --proxy-group-security: 可 针对 某 一 个 Setvet Gtoup 来 指定 安全 级 别 ， 默 认 值 为 0， 即 没有 任何 设置 。 设 置 为 1， 表 示人 禁止 通过 OneProxy 来 执行 DDL 操 作 ; 设置 为 >， 表示 必须 要 有 Where 条 件 ; 设置 为 3 则 


只 允许 只 读 的 操作 。 
- -event-threads: 设置 并 发 线程 数 ， 最 大 允许 48 个 线程 ， 不 要 超过 CPU 的 核 数 。 


` --proxy-part-tables: 设置 分 库 分 表 规 则 。OneProxy 分 库 分 表 原 理 为 首先 检查 客户 端 执行 的 SQL， 判 断 分 区 键 值 HASH 取 模 后 的 结果 ; 然后 在 patttxt 规 则 文件 里 取出 播 入 的 表 名 和 组 名 ， 并 将 SQL 路 由 到 指 


定 的 后 端 DB 中 。 


` —-proxy-parallel-degree: 当 whete 条 件 带 分 区 列 时 ， 直 接 命 中 该 表 ， 如 果 未 带 分 区 列 ， 则 会 逐一 扫描 所 有 分 表 ( 单 线程 ) ， 考 虑 性 能 问题 ， 增 加 并 行 查询 〈 多 线程 ， 这 里 设置 为 8 个 线程 ) ， 比 如 将 SQL 改 


A select/*parallel*/from t1 where name=' 李 四 '; 并 行 查询 会 增加 额外 的 CPU 消耗 。 
(6) 设置 分 库 分 表 配 置 文件 
设置 分 库 分 表 配 置 文件 的 命令 如 下 : 


# cat part.txt 
[ 


{ 


"table" $ MED 

"pkey" : ud cid" E 

"u type" : "Int"! ; 

"method" : "hash", 

"partitions": 

[ 

{ ui su c F1 x" : " 0 ud " "group" : "groupl n" } 3 
{ Lig su c 的 x" : yak WwW a "group" : "group2 W } F 
{ ud su c Fi x" : "2 ud À "group" : "groupl n" } 3 
{ iii SU c F1 x" : ud 3" P "group" : "group2 n" } 


这 里 分 库 分 表 采 用 的 规则 是 以 hash 方 式 (WR) 将 表 分 为 4 张 ， 以 test 库 下 的 t1 表 cid 字 段 作为 分 区 键 ， 当 mod(1，4) 得 到 取 模 后 的 结果 等 于 1 时 ， 会 将 客户 端的 请 求 路 由 到 组 
group2 (192.168.17.129) ， 并 执行 insert 插 入 操作 。 


(7) 启动 服务 
启动 服务 的 命令 如 下 : 
/bin/bash sharding start.sh 


(8) 关闭 服务 


客户 端 连接 OneProxy 4041 后 台 管 理 端 口 即 可 关闭 服务 ， 命 令 如 下 : 


mysql -h192.168.17.131 -uadmin -pOneProxy -P4041 -e "shutdown force" 


10.2 ”OneProxy 分 库 分 表 接 入 限制 


OneProxy 分 库 分 表 接 入 有 如 下 限制 |。 


. 不 支持 预 编译 语句 Prepared Statement， 不 支持 Bind、Execute 调 用 接口 ， 分 别 如 图 10-4 和 图 10-5 所 示 。 


SQLyog Ultimate 


Call and server side prepare statement not supported in 


OneProxy. 


图 10-4 不 支持 Prepared Statement (1) 


FATAL: mysql stmt prepare&e() failed 


FF 


FATAL: MySQL error: 1149 "prepared staten Xy 
FATAL: thread#0: failed to prepare 


图 10-5 A X4#Prepared Statement (2) 


. 不 支持 使 用 use 命 令 来 切换 后 端 数据 库 ， 默 认 连 接 的 数据 库 由 broxy-dqatabase (对 所 有 用 户 指定 ) 和 proxy-usef-list 选 项 〈 可 对 不 同 用 户 指定 不 同 的 默认 数据 库 ) 的 值 来 决定 。use 命 令 可 以 执行 ， 但 它 的 含 
义 是 切换 到 不 同 的 MySQL 主 备 集群 。OneProxy 支 持 分 库 分 表 功 能 后 ， 将 一 个 主 备 集群 视 为 一 个 数据 库 ， 连 接 OneProxy 时 如 果 指 定数 据 库 名 ， 需 要 替换 成 Servet Group 的 名 字 。 


| 禁止 使 用 set 命 令 ， 任 何 set 命 令 都 会 直接 成 功 返回 ， 而 不 做 任何 处 理 ， 必 须 保 持 连接 池 里 的 每 一 个 连接 处 于 同样 会 话 配 置 的 状态 。 后 端 个 别 数据 库 参 数 的 调整 ， 需 要 直接 访问 后 端 数据 库 进 行 操作 。 
. 默认 禁止 CALL、PREPARE、EXECUTE、DEALLOCATE 命 令 ， 不 支持 存储 过 程 和 函数 。 

. ŽE ( 单 实例 ) 分 表 (比如 insert/update/delete) 要 加 分 区 字段 名 ， 如 insett into t1(id，name)values(1，' 张 三 ");。 

AFE (REP) 分 表 的 情况 下 ， 如 果 目 前 分 了 N 张 表 ， 以 自 增 id 做 关联 查询 ， 那 么 每 张 表 的 自 增 id 都 是 从 1 开始 的 ， 在 与 其 他 表 join 关联 查询 时 ， 数 据 会 不 准确 。 

FER (BEG) 分 表 的 情况 下 ， 当 whete 条 件 有 分 区 列 时 ， 值 不 能 有 有 函数 转换 ， 也 不 能 有 算术 表达 式 ， 必 须 是 原子 值 ， 否 则 结果 会 不 准确 。 


. 在 分 库 分 表 (多 实例 ) 的 情况 下 ， 不 支持 垮 库 join， 例 如 useft_0 表 在 10.0.0.1 机 器 里 ， 现 在 要 join 关联 查询 10.0.0.2 机 器 里 的 money_detail 表 ， 则 会 不 支持 。 


. 在 分 库 分 表 (多 实例 ) 的 情况 下 ， 不 支持 分 布 式 事务 ， 例 如 uset_0 表 在 10.0.0.1 机 器 里 ，uset_1 表 在 10.0.0.2 机 器 里 ， 现 在 想 同时 更 新 两 张 表 ， 则 会 不 支持 。 
. 用 于 分 区 的 列 ， 可 以 是 int 或 chat 类 型 ，int 对 应 到 MySQL 中 各 种 整数 类 型 ，chart 对 应 到 各 种 定 长 和 变 长 字符 串 类 型 ， 日 期 类 型 在 SQL 中 按 字 符 串 处 理 就 可 以 支持 。 


. 跨 库 的 分 页 操作 会 在 OnePtoxy 的 内 存 中 进行 ，Limit 中 的 Offset 在 10000 以 内 ， 结 果 是 精确 的 ， 超 过 10000 时 会 做 一 些 模糊 的 处 理 。 


10.3 ”OneProxy 分 库 分 表 基 本 测试 


10.3.1 “分 库 分 表 的 功能 测试 
首先 ， 让 客户 端 连 接 OneProxy 3317 端 口 ， 在 test 库 下 创建 t1 表 ， 命 令 如 下 : 


mysql -h192.168.17.131 -uadmin -p123456 -P3317 test -e " 
CREATE TABLE “tl ( 

^id int(11) NOT NULL AUTO INCREMENT, 

"cid! int(11) DEFAULT NULL, 

"name" char(10) DEFAULT NULL, 
RIMARY KEY (‘id’), 
KEY “cid (^cid?) 
) ENGINE-InnoDB DEFAULT CHARSET-utf8;" 


tg 


然后 登录 后 端 DB (192.168.17.1285/192.168.17.129) ， 这 时 通过 如 下 命令 会 看 到 创建 的 表 已 经 自动 分 表 ( 见 图 10-6 和 图 10-7) 。 


mysql -h192.168.17.128 -uadmin -p123456 -P3306 test -e "Show tables;" 
mysql -h192.168.17.129 -uadmin -p123456 -P3306 test -e "show tables;" 


E-------------——3A 
Tables in test 


图 10-6 ”后 端 DB-128 表 已 拆 分 


| Tables in tes 


图 10-7 后 端 DB-129 表 已 拆 分 


之 后 ， 让 客户 端 连接 OneProxy 3317 端 口 ， 插 入 测试 数据 ， 如 下 : 


insert into tl(cid, name) values(1, 'a'); 
insert into tl (ci ] 
insert into t] 


insert into t1 


insert into tl(cid, name) values(5, 'e'); 
insert into tl(cid, name) values(6, 'f'); 
insert into tl(cid, name) values(7, 'g'); 
insert into tl(cid, name) values(8, 'h'); 
insert into tl(cid, name) values(9, 'i'); 
insert into tl(cid, name) values(10, 'j');" 


并 通过 OneProxy 查 看 t1 表 的 数据 ， 如 图 10-8 所 示 。 


MvSG@L [tnone) lj> select * from tl: 
—í—— 
| id | cid 


[J C] 


C x) 
bt 
! > C^ | té» D | 
E 


A] 


—] 


10 rows in set (0.01 sec) 


图 10-8 tA ACE TE. 


再 次 登录 后 端 DB (192.168.17.128$1192.168.17.129) ， 通 过 如 下 命令 会 看 到 数据 已 经 通过 hash 取 模 ， 规 则 分 布 在 不 同 的 表 里 ( 见 图 10-9 和 图 10-10 所 示 ) 。 


mysql -h192.168.17.128 -uadmin -p123456 -P3306 test 
mysql -h192.168.17.129 -uadmin -p123456 -P3306 test 


如 果 以 上 的 操作 运行 没有 问题 ， 那 么 代表 分 库 分 表 已 经 工作 正常 。 


mysql> select * from tl 0 
p--——-----------— 
| id cid name | 
a 
(1il 4ļda | 
2| 8|ln | 


2 rows ln set (0.00 sec) 


mysql? select * from tl Z, 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
| id | cid | name | 
T-—--—-----------— 
Laal 1 | 


| b 
| 2| elf | 
| 3 1013 | 
—————»À! 
3 rows in set (0.00 sec) 


mysql» select * from tl 1l. 
一 一 一 
| id | cid name 
一 
| 11| ifa | 
| 2; 5ļe | 
3 9 |i | 
-一直 一 一 -一 -一 一 一 


3 rows ln set (0.00 sec) 


mysql» select * from tl 5; 
p---—R------—-----— 
| id | cid | name | 
t-t MMMM + 
| Sle | 
| 2) Fig | 
R----—----------- 二 


7 rows in set Mid 00 sec) 


现在 ， 在 客户 端 连 接 OneProxy 4041 后 台 管 理 端口 ， 命 令 如 下 : 


mysql -h192.168.17.131 -uadmin -pOneProxy -P4041 


可 以 查看 到 分 库 分 表 规则 ， 如 图 10-11 所 示 。 


MySQL [(none)]> LIST TABLES; 
—pL------—p-----2-2------p---------— 
| TABLENANE | KEY | TYPE | METHOD | PARTITIONS | KEYCACHE | 
— 
| hash 


1 row in set (0.00 sec) 


MySQL [(none)]> LIST PARTITIONS; 
Se 
| TABLENAME | PARTID | PARTITION | GROUP | VALUES | STATUS | 
peuu———Ó—Re————Ó—Éb———————dFeÓ—————es—————Ée——— 
eroupl | NULL | RW 
sroup? | NULL | RW 
eroupl | NULL 


图 10-11 在 后 台 查 看 分 表 规 则 

查看 分 区 表 t1 的 QPS 情 况 ， 如 图 10-12 所 示 。 

其 中 : 

“ Select 代 表 总 共 执 行 的 次 数 。 

: Selfrow 代 表 总 共 查 询 的 行 数 。 

.Seltim 代 表 总 共 执行 的 时 间 (BAY) 。 

查看 后 端 DB 的 请 求 ， 如 图 10-13 所 示 。 
MySQL [(none)]> LIST TABSTATS 


4----—- -------- —--2---- —------- —------- —------- -+----- —-------- 一 一 == =-=- 一 一 -一 =t- 一 
| TABLE | INSERT | INSROW | INSTIM | UPDATE | UPDROW | UPDTIM | DELETE | DELROW | DELTIM | SELECT | SELROW | SELTIM | 
-+ 十 


1 row in set (0.00 sec) 


E1042 ”每 秒 请 求 数 统计 


MySQL [tnone)j> list backend; 


1 | 127.0.0. 1:3317 | RW/Master | UP | 
2 | 182.168.17.128:3308 | RW/Master | UP | O | groupi 
3 | 192.168.17.129:3306 | RW/Master | UP | 2 | O | group2 
q—————Ó-——————————Ó—Ó— s a 
3 rows in set (0.00 sec) 


图 10-13 ”后 端 数据 库 访 问 请 求 统计 
其 中 : 
.REQUESTS 代 表 有 多 少 请 求 过 来 。 
.STATUS 下 的 UP 代表 主机 存活 ，DOWN 代 表 主 机 宕 机 。 


可 能 有 读者 会 问 ,今后 再 对 新 的 表 做 分 库 分 表 时 ， 如 何 动态 加 载 呢 ? 同样 也 是 在 后 台 里 完成 设置 ， 如 图 10-14 所 示 。 


MySQL [(none)]> load tables ` /root/oneproxy/part. txt’ : 
Query OK, 0 rows affected (0.00 sec) 


MySQL (none) J> list tables: 


十 一 一 一 一 一 一 一 一 一 一 -十 一 一 一 一 一 -十 一 一 -一 一 二 一 一 一 一 一 一 一 -十 一 一 一 一 一 一 一 一 一 一 一 -十 一 一 一 一 一 一 一 一 一 m 
| TABLENAME | KEY | TYPE | METHOD 9 PARTITIONS | KEYCACHE | 
qp———— =p- —+----=— 十 一 一 一 一 一 下 一 一 -一 一 一 一 -一 十 一 一 一- 一 
| tl | cid | int | hash | d | J | 
|| 4:2 | cid lint | hash | 4 | 0 | 
+ 一 一 一 一 一 一 一 一 环 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 一 + 


2 rows in set (0.00 sec) 


MySQL [(none)J> list partitions 


—» 
Jute pec pee [e a A -—t 
| TABLENAME | PARTID | PARTITION | GROUP | VALUES | STATUS | 
十 一 一 一 一 一 一 一 一 一 一 -十 一 一 一 一 一 一 一 于 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 + 一 一 一 一 一 一 -------- 一 
| +1 | o | t1 0 | zroupl | NULL | RA | 
| +1 | 1 | #11 | zroup2 | NULL | RW | 
| tl | 2 | tl 2 | group | NULL | RW | 
Ei | 3 Eoi | group? | NULL | RA | 
Ik. | o | t2 0 | group! | NULL | RW | 
| 12 | 1 | t2 1 | group? | NULL | RW | 
| +2 | 2 | +2 2 | group] | NULL | RW | 
| t2 | 3 | t2. 3 | group? | NULL | RW | 
十 一 一 一 一 一 一 一 一 一 一 -十 一 一 一 一 一 一 一 -—---------- 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


8 rows in set (0.00 sec) 


图 10-14 动态 加 载 分 区 规则 


通过 load tables 命 令 即 可 实现 动态 加 载 ， 并 不 用 重新 启动 OneProxy 服 务 进程 。 也 可 以 通过 Explain 命 令 查 看 后 端 DB 的 命中 情况 。 当 where 条 件 带 分 区 列 时 ， 直 接 命中 该 表 ， 如 图 10-15 所 示 。 


MySQL [none)]j> explain select * from tl where cid=3: 


1 row in set (0.01 sec) 


图 10-15 i9 X42 EA 


如 果 where 条 件 未 带 分 区 列 ， 则 会 逐一 扫描 后 端 DB 所 有 分 表 ， 如 图 10-16 所 示 。 


MySQL L(mone)]> explain select * from tl where name= c’; 


1 | SIMPLE = E i index condition 


1 | SIMPLE £ E | Using index condition 


1 | SIMPLE 5 e i index condition 
1 | SIMPLE š | condition 


4 rows in set (0.40 sec) 


图 10-16 ”扫描 所 有 分 区 表 


10.4 搭建 OneProxy 高 可 用 故障 切换 HA 


由 于 OneProxy 内 置 了 HA 功能 ， 因 此 可 以 不 需要 安装 第 三 方 软件 实现 高 可 用 故障 切换 ， 也 可 以 使 用 KeepAlived 实 现 。 如 果 将 OneProxy 部 署 在 多 台 机 器 上 ， 构 成 一 个 集群 ， 那 么 应 用 就 可 以 在 程序 中 实 
现 错误 尝试 机 制 ， 或 者 使 用 F5、HAProxy、LVS 等 软 硬 件 做 端口 转发 ， 这 样 ， 就 可 以 根据 一 定 的 策略 转发 到 任何 一 个 OneProxy 节 点 ， 从 而 做 到 OneProxy 无 单 点 服务 。 


1. 通 过 OneProxy 内 置 功能 实现 高 可 用 HA 


假设 两 全 OneProxy 机 器 上 的 网 卡 名 称 为 “eth0” ， 那 么 只 需要 在 两 台 机 器 启动 OneProxy 的 命令 中 新 增 一 个 参数 “--vip-address=VIP 地 址 /eth0:1” 就 可 以 了 ，OnepProxy 会 自动 检测 VIP 地 址 。 如 果 
一 台 机 器 重启 ， 那 么 另 一 台 机 器 会 在 1~2 秒 内 自动 接管 VIP 地 址 ， 以 确保 系统 高 可 用 ， 完 全 省 去 了 多 个 复杂 的 集群 软件 的 安全 和 配置 ， 启 动 脚本 如 下 : 


# cat sharding start.sh 
#/bin/bash 
export ONEPROXY HOME=/root/oneproxy 
S(ONEPROXY HOME}/oneproxy --keepalive --proxy-address-:3317 \ 
--proxy-master-addresses-192.168.17.128:330680group1l \ 
--proxy-master-addresses-192.168.17.129:330680group2 \ 
--proxy-user-list-admin/9D7E55EAF8912CCBF32069443FAC452794F8941BQtest \ 
--admin-address-:4041 \ 
--proxy-part-tables-$(ONEPROXY HOME}/part.txt \ 
—-proxy-parallel-degree=8 \ 
--event-threads=8 \ 
--proxy-group-policy-groupl:0 --proxy-group-policy-group2:0 \ 
--proxy-group-security-groupl:0 --proxy-group-security-group2:0 \ 
--vip-address-192.168.17.200/eth0:1 \ 
--log-file-$(ONEPROXY HOME)/oneproxy.log \ 
--pid-file-$(ONEPROXY HOME}/oneproxy.pid 


启动 脚本 以 后 ， 通 过 ifconfig 命 令 ， 可 以 查看 到 多 了 一 个 192.168.17.200 VIP 地 址 ， 如 图 10-33 所 示 。 


[root&MHA ]# ifconfig 
ethü Link encap:Bthernet HWaddr 00:00:29:A0:0B:E6 
inet addr:192.168.17.131  Bcast:192.168. 17. 255 
inet6 addr: fe80::20c:29ff:feaÜ0:be65/64 Scope:Link 
UP BROADCAST RUNNING MULTICAST MTU:1500 Wetric:1 
RK packets:5bTT errors:0 dropped:0 overruns:Ü frame:0 
TX packets:3226 errors:0 dropped:0 overruns:Ü carrier:0 
collisions:0 txqueuelen: 1000 
RX bytes:347112 (338.9 KiB) TX bytes:264834 (258.6 KiB) 


Link encap:Ethernet HWaddr 00:00:29: A40:0B:F6 
inet addr:192.168.17.200  Bcast:192.168.17. 255 Mask: 255, 255. 255, 255 
UP BROADCAST RUNNING MULTICAST MIU:1500 Metric:l 


Link encap:Local Loopback 

inet addr:127.0.0.1 WMask:255. 0.0.0 

inet6 addr: ::1/128 Scope:Host 

UP LOOPBACK RUNNING  MTU:65536 WMetric:1l 

RX packets:9/3/ errors:0 dropped:0 overruns:0 frame:0 
TX packets:9/3f errors:0 dropped:0 overruns:Ü carrier:Ü 
collisions:0 txqueuelen:0 

RX bytes:566557 (553.2 KiB) TX bytes:566557 (553.2 KiB, 


图 10-33 ”多 了 一 个 VIP 地 址 
2. 故 障 转移 测试 


当 kill 掉 oneproxy 进 程 ， 或 者 把 机 器 重启 后 ，VIP 会 自动 飘移 到 OneProxy 备 机 上 ， 切 换 时 间 为 1~2 秒 。 这 里 需要 注意 的 是 : 故障 切换 是 不 打印 日 志 的 ， 如 果 想 通过 日 志 查 看 是 何 时 切换 的 ， 目 前 的 
OneProxy 5.8.0 版 本 (libevent:2.0.22-stable) 还 不 支持 。 


10.5 ”OneProxy 黑 名 单 SQL 防 火 墙 搭建 测试 


前 几 年 ， 国 内 某 网 站 的 用 户 数 据 库 被 黑客 公开 发 布 ， 几 百 万 用 户 的 登录 名 及 密码 被 公开 泄露 ， 随 后 又 有 多 家 网 站 的 用 户 名 及 密码 被 流传 于 网 络 ， 因 此 引发 众多 网 民 对 自己 账号 、 密 码 等 互联 网 信息 被 盗 
取 的 普遍 担忧 ， 触 动 了 每 一 位 用 户 的 神经 ， 网 络 安全 成 为 现在 互联 网 的 焦点 。 下 面 先 了 解 什么 是 SQL 注入 。 


SQL 注入 (SQL Injection) ， 就 是 通过 把 SQL 命令 插入 Web 表 单 递 交 或 输入 域名 或 页 面 请 求 的 查询 字符 串 ， 最 终 达 到 欺骗 服务 器 执行 恶意 的 SQL 命令 。 具 体 来 说 ， 它 是 利用 现 有 应 用 程序 将 (恶意 
AY) SQL 命令 注入 后 台数 据 库 引擎 执行 的 能 力 ， 它 可 以 通过 在 Web 表 单 中 输入 (恶意) SQL 语句 得 到 一 个 人 存在 安全 漏洞 的 网 站 上 的 数据 库 ， 而 不 是 按照 设计 者 意图 去 执行 SQL 语句 。 


对 于 这 类 情况 ， 可 利用 OneProxy 自 带 的 SQL 防火 墙 将 事先 定义 好 的 黑 名单 SQL 语 句 直接 拦截 ， 从 而 保护 数据 库 的 安全 。 来 看 看 具体 步骤 。 
(1) 开启 OneProxy 防 火 墙 


启动 脚本 如 下 : 


# cat sharding start.sh 
#/bin/bash 
export ONEPROXY HOME=/root/oneproxy 
S(ONEPROXY HOME}/oneproxy --keepalive --proxy-address-:3317 \ 
--proxy-master-addresses-192.168.17.128:330680group1l \ 
--proxy-master-addresses-192.168.17.129:33068group2 \ 
--proxy-user-list-admin/9D7E55EAF8912CCBF32069443FAC452794F8941BGtest \ 
--admin-address-:4041 \ 
--proxy-part-tables-$(ONEPROXY HOME)/part.txt \ 
-—-proxy-parallel-degree-8 \ 
--event-threads-2 \ 
--proxy-group-policy-groupl:0 --proxy-group-policy-group2:0 \ 
--proxy-group-security-groupl:0 --proxy-group-security-group2:0 \ 
--vip-address-192.168.17.200/eth0:1 \ 
--proxy-enable-firewall \ 
--proxy-firewall-watchonly \ 


--proxy-black-query-$ (ONEPROXY HOME}/black sql.txt \ 
--log-file-$(ONEPROXY HOME}/oneproxy.log \ 
--pid-file-$(ONEPROXY HOME}/oneproxy.pid 


参数 解释 如 下 。 
: --ptoxy-enable-firewall: 开启 内 置 SQL 防 火 墙 。 
“ --proxy-firewall-watchonly : 开启 SQL 防火 墙 的 观察 模式 。 


- --proxy-black-quety: 自 定义 黑 名 单 SQL。 


这 里 要 说 明 一 下 什么 是 黑 名 单 SQL。 黑 名 单 SQL 的 文件 名 为 black_sql.txt。 其 内 容 如 下 : 


# cat black sql.txt 
1select * from t1 
3update t1 set name - 
4delete from t1 
4delete from t1 where cid > 


参数 解释 如 下 。 


- 数字 1 代表 select， 数 字 2 代表 inseftt， 数 字 3 代表 update， 数 字 4 代 表 delete。 
(2) OneProxy 防 火 墙 黑 名 单 拦 截 演示 


在 客户 端 连 接 OneProxy 3317 端 口 ， 命 令 如 下 : 


mysql -h192.168.17.131 -uadmin -p123456 -P3317 test 


然后 执行 黑 名 单 中 的 SQL 语句 ， 如 图 10-34 所 示 。 


MySQL [(none)]> select * from tl: 

ERROR 1045 (28000): Statement was blocked by OneProxy SQL Firewall 
MySQL [inone)]? 

MySQL [(none)]> update tl set name= hechunyang - 

ERROR 1045 (28000): Statement was blocked by ÜneProxv SQL Firewall 
MySQL [ (none) |)» 

MySQL [nonejj> delete from tl; 

ERROR 1045 (28000): Statement was blocked by OneProxy SQL Firewall 
MySQL [ (none) |> 

MySQL [inone)]> delete from tl where cid > 10; 

ERROR 1045 (28000): Statement was blocked by OneProxy SQL Firewall 
MySQL [ (none) >» 

yo [tnone) ]> select * from tl where cid = 1: 
一 

|id | eid | name | 

p----—------—------— 

| 1| ila | 

a -H 

1 row in set (0.00 sec) 


图 10-34 黑 名 单 SQL 被 防火 墙 拦截 
从 图 10-34 可 以 看 到 ， 黑 名 单 SQL 直 接 被 拦截 ， 而 合法 的 SQL 是 正常 执行 的 。 


如 果 在 客户 端 连接 OneProxy 4041 后 台 管 理 端 口 ， 则 可 以 列 出 定义 的 黑 名单 SQL， 连 接 命令 如 下 : 


mysql -h192.168.17.131 -uadmin -pOneProxy -P4041 


结果 如 图 10-35 所 示 。 


MySQL [imone)]» LIST BLACKSQL 
-— - 
一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 于 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| HASHCODE | EXECS | SQLTEXT | 
十 一 一 一 一 一 一 一 一 一 一 一 二 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


| 55778364 | | | delete from tl 
| 1769265575 | | select * from ti 
| 2269172827 | ) | update tl set name = 9 
2114990179 | | delete from tl where cid > ? | 
| -十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
4 rows in set (0.00 sec) 


图 10-35 管理 后 台 查看 拦截 的 SQL 


若 再 次 添加 黑 名 单 SQL， 如 何 动态 加 载 呢 ?同样 ， 也 是 在 后 台 完 成 设置 ， 如 图 10-36 所 示 。 


MySQL [ínone)]> load blacksql ' /root/oneproxvy/black. sql. txt; 
Query OK, 0 rows affected (0.00 sec) 


MySQL [ (none) ]> LIST BLACESQL ; 
ee 
| HASHCODE | EXECS | SQLTEXT | 
hh rt rr rt 
| 55778364 | 0 | delete from tl 
| 1769265575 | | select * from tl 
| 2269172827 | | update tl set name = 7 
| 186087535 | | select * from tl cid > ? 
| | | 

| | 


219957192 select * from tl where 1-1 


| 2114990179 delete from tl where cid > 7? 


| 
| 
| 
| 
| 
| 
| 2028718327 | 1 | select * from tl where cid > ? | 
qu ÀMÀÓÓ € —À— e — — HÀ —HÀ————— iM i 


T rows in set (0.00 sec) 


图 10-36 ”动态 加 载 黑 名 单 规 则 
通过 load blacksql 命 令 即 可 实现 动态 加 载 ， 并 不 用 重新 启动 OneProxy 服 务 进程 。 
要 注意 的 是 ， 这 里 有 个 bug， 就 是 在 执行 select*from t1 where 1=1; 防 火 墙 失 效 时 ,仍旧 可 以 跳 过 黑 名 单 规则 正常 执行 ， 但 该 规则 已 经 在 黑 名 单 里 设置 了 ， 如 图 10-37 所 示 。 
也 可 以 动态 关闭 SQL 防火 墙 ， 登 录 后 台 执 行 如 图 10-38 所 示 的 命令 。 


这 样 就 可 以 关闭 SQL 防火 墙 了 。 


[root@MHA oneproxy]# admin -e "list blacksql” 


| HASHCODE | EXECS | SQLTEXT | 


4------------p------ 于 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


| DDTTS364 0 | delete from tl 


| | 
| 1769265575 | 0 | select * from tl | 
| 2269172827 | 0 | update tl set name = ? | 
| 186087535 | 0 | select * from tl cid > ? | 
| 219957192 | 0 | select * from tl where 1-1 | 
| 2114990179 | 0 | delete from tl where cid > ? | 
| 2028718327 | 1 | select * from tl where cid > ? | 


[root@MHA oneproxy]# 
[root@MHA oneproxy]# op -e “select * from tl where 1=1:” 


A a E - 
| id leid | name | 
4-————----—------— 
| 1| ala | 
| 2| glh | 
| SE 1 | a | 
|2] 5l]le | 
| 3 | 9 | i | 
| Æ] 2 | b | 
| 2 | 6 | f | 
| 3 | 10] 3 | 
| 1 | 3 | ¢ | 
| 2 | Tilg | 
十 = 一 一 下 一 一 一 一 一 a + 


[root@MHA oneproxyl# op -e "select * from tl;" 
ERROR 1045 (28000) at line 1: Statement was blocked by OneProxv SQL Firewall 
[root@MHA oneproxyl# _ 


图 10-37 ”防火墙 bug 


MvS@L [inone)l» SET SQL FIREWALL OFF. 
Query OK, 0 rows affected (0.00 sec) 


MySQL [inone)]> LIST OPTION; 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 省 一 一 一 一 一 一 一 
| OPTION | VALUE | 
一 一 一下 下 
| SQLSTATS | ON | 


| TABSTATS | ON | 


USERSTATS 
TRANS DEBUG 
LOG SQLERROR 
SQL DEBUG 

TOKEN DEBUG 
SECURITY, LEVEL 
SQL FIREWALL 
DEL FIREWALL 
WATCH MODE 

SQL SIGNATURE 
IP FIREWALL 
LOGIN RESTRICT 
STRICT. POOLMAX 
UNSAFE GROUP 
MULTI INSERTS 
PARALLEL DEGREE 
PARALLEL REQUESTS 
MAX CACHE ROWS 
MAX IDLE TIME 


- 
"Ij 
ES 


21 rows in set (0.00 sec) 


第 11 章 ”Lepus 慢 日 志 分 析 平 台 搭 建 与 维护 


DBA 在 分 析 慢 查询 日 志 时 ， 通 常 是 登录 服务 器 后 采用 mysqldumpslow 工 具 进 行 分 析 的 ， 但 这 样 很 不 直观 ， 而 Lepus 作 为 一 款 免 费 开 源 的 慢 日 志 分 析 平 台 系统 ， 可 将 系统 收集 的 慢 查 询 SQL 语 句 展示 在 网 
页 里 ， 并 通过 邮件 形式 推送 给 开发 者 或 DBA 进 行 优化 。 


Lepus 是 基于 LAMP 环 境 (Linux+Apache+MySQL+PHP) 搭建 的 。 首 先 要 把 Lepus 监 控 搭 建 起 来 ， 再 才能 部 署 慢 日 志 分 析 平 台 。 


Lepus 目 前 主要 是 有 以 下 功能 和 特性 。 


实时 对 MySQL 的 健康 进行 监视 和 报警 。 
> 实时 对 MySQL 的 复制 进行 监视 和 报警 。 


实时 对 MySQL 的 资源 进行 监控 和 分 析 。 


< 实时 对 MySQL 的 缓存 等 性 能 进行 监控 。 
- 实时 对 InnoDB IO 的 性 能 进行 监控 。 
.MySQL 表 空 间 增长 趋势 分 析 。 

| 可视化 MySQL 慢 查询 在 线 分 析 。 

: MySQL 慢 查询 自动 推送 。 


- MySQL AWR 在 线性 能 分 析 。 


11.1 ”Lepus 基 础 组 件 的 安装 


首先 ,安装 Apache、PHP、MySQL， 以 及 PHP 连 接 MySQL 库 组 件 的 接口 ， 命 令 如 下 : 


# yum install -y httpd php php-devel mysql mysql-server php-mysql 


然后 ， 安 装 Python 基 础 模块 ， 命 令 如 下 : 


wget http://cdn.lepus.cc/cdncache/software/MySQLdb-python.zip 
unzip MySQLdb-python.zip 

cd MySQLdb1-master/ 

which mysql config 
usr/local/mysql/bin/mysql config 


V xb Sb b HE 


对 vim site.cfg 进 行 修 改 ， 改 为 nysql_config 绝 对 路 径 ， 命 令 如 下 : 


mysql config = /usr/local/mysql/bin/mysql config 
# python setup.py build 
# python setup.py install 


最 后 ， 安 装 Lepus 监 控 系 统 ， 有 具体 步骤 如 下 。 


1) 上 传 软件 包 到 监控 机 服务 器 并 解压 缩 软件 到 系统 。 


# lepus .zip 请 在 华章 网 站 下 载 
# unzip lepus.zip 


2) 在 监控 机 中 创建 监控 数据 库 并 授权 。 


mysql» create database lepus default character set utf8; 

mysql» grant select, insert, update, delete, create on lepus.* to 
'lepus user'G'localhost' identified by 'lepus'; 

mysql> flush privileges; 


导入 SQL 文件 夹 里 的 SQL 文件 〈 表 结构 和 数据 文件 ) , RIT P: 


# mysql -uroo 
# mysql -uroo 


-plepus lepus < sql/lepus table.sql 
-lepus lepus < sql/lepus data.sql 


CT CT 


3) 安装 Lpeus 程 序 。 


通过 如 下 命令 进入 软件 包 的 python 文 件 夹 。 


# cd python/ 


授予 install.sh 可 执行 权限 ， 命 令 如 下 : 


# chmod 755 install.sh 


执行 安装 ， 命 令 如 下 : 


# ./install.sh 


4) 修改 配置 文件 。 


通过 如 下 命令 进入 安装 目录 ， 上 默认 为 /usr/local/lepus。 


# cd /usr/local/lepus/ 
4 vim etc/config.ini 


修改 config.ini 配 置 文件 ， 将 host 改 为 监控 机 MySQL 数 据 库 的 连接 地 址 。 


[monitor server] 


host-"localhost" 
port-3306 

user-" lepus user " 
passwd="lepus" 
dbname-"lepus" 


5) 启动 Lepus， 命 令 如 下 : 


# /usr/local/lepus/lepus start 


现在 可 以 安装 Web 管 理 台 了 ， 命 令 如 下 : 


# cp -rf php/* /var/www/html/htdocs/ 


打开 application\config\database.php 文 件 ， 修 改 PHP 连 接 监控 服务 器 的 数据 库 信息 : 


Sdb['default']['hostname'] = 'localhost'; 
Sdb['default'] ['username'] = 'lepus user'; 
Sdo['default']['password'] = 'lepus'; 
Sdo['default']['database'] = lepus; 
Sdb['default']['dbdriver'] = 


] 'mysqi'; 


登录 添加 主机 和 监控 。 通 过 浏览 器 输入 IP 地 址 或 域名 打开 监控 界面 ， 即 可 登录 系统 ( 见 图 11-1) 。 默 认 管理 员 账 号 和 密码 为 admin/Lepusadmin， 登 录 后 请 修改 管理 员 密 码 ， 增 加 普通 账号 。 


连接 fe 
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_111_144 


master 
master 


-Slave1 


主机 角色 


1m192.168.111.78:3306 -Slave1 master 


(0192.168.111.77:3306 master slave 


©192.168.111.79:3306 slave2 master/slave 


= 192.168.111.77:3304 master master 


11.2 %percona-toolkit LA 


Lepus 的 慢 查 询 分 析 平 台 是 独立 于 监控 系统 的 模块 的 ， 它 使 用 percona-toolkit 工 具 来 采集 和 记录 慢 查 询 日 志 ， 并 且 会 部 署 一 个 Lepus 提 供 的 shell 脚 本 来 进行 数据 采集 。 


基本 信息 
版 本 


10.0.21-MariaDB-log 
10.0.21-MariaDB-enterprise-log 
10.0.21-MariaDB-enterprisetog 


10.0.21-MariaDB-enterprise-log 
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OFF 一 一 
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图 11-1 


mysql-bin.002747 
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Lepus 主 从 复制 监控 


最 新 监控 时 间 -2( 
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115KB 
228KB 
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主 库 位 置 
志文 件 位 置 


mysql-bin.002747 100386680 


100386680 mysqli-bin.002747 100386680 


100386680 mysqli-bin.002747 100386680 


mysql-bin.000461 42485207 


询 日 志 ， 并 且 按 分 钟 对 慢 查 询 日 志 进 行 切割 ， 然 后 将 收集 的 慢 查 询 日 志 的 数据 发 送 到 监控 机 数据 库 ， 再 通过 Lepus 系 统 就 可 以 分 析 慢 查询 了 。 


下 面 是 percona-toolkit 的 安装 步骤 。 


1) 安装 percona-toolkit， 命 令 如 下 : 


20GB 


该 脚本 会 自动 开启 数据 库 的 慢 查 


# yum -y install perl-I0-Socket-SSL 

# yum -y install perl-DBI 

4 yum -y install perl-DBD-MySQL 

# wget 

ht 

4 tar zxvf percona-toolkit-2.2.16.tar.gz 
# cd percona-toolkit-2.2.16 

# perl Makefile.PL 

# make 

# make install 


2) 从 监控 机 拷贝 Lepus 提 供 的 慢 碍 询 分 析 脚 本 到 MySQL 端 。 


tps://www.percona.com/downloads/percona-toolkit/2.2.16/tarball/percona-toolkit-2.2.16.tar.gz 


* scp /usr/local/lepus/client/mysql/lepus slowquery.sh 
root@192.168.111.78:/usr/local/sbin/ 


# chmod 755 /usr/local/sbin/lepus slowquery.sh 


3) 编辑 文件 修改 配置 ， 在 这 里 需要 指定 Lepus 监 控 机 数据 库 的 地 址 、 本 地 MySQL 地 址 ， 以 及 存储 慢 查 询 的 路 径 和 慢 查 询 时 间 ， 另 外 还 需要 配置 一 个 Lepus 主 机 的 server id， 具体 如 下 。 


#vim /usr/local/sbin/lepus slowquery.sh 
#config lepus database server 
lepus db host="192.168.111.82" 


lepus db port-3306 
lepus db user-"admin" 
lepus db password-"123456" 
lepus db database="lepus" 
#config mysql server 
mysql client-"/usr/local/mysql/bin/mysql" 
mysql host-"192.168.111.78" 

mysql port-3306 
mysql user-"admin" 
mysql password="123456" 

#config slowqury 

slowquery dir-"/data/mysql/slowlog/" 
slowquery long time=] 

slowquery file= $mysql client -h$mysql host -P$mysql port 
-u$mysql user -p$mysql password -e "show variables like 
"slow query log file'"|grep loglawk '{print $2]'^ 

pt query digest-"/usr/local/bin/pt-query-digest" 

#config server id 
lepus server id-271 


itm, lepus server id 的 值 需要 从 系统 中 获取 。 进 入 MySQL 服 务 器 配置 ， 在 部 署 脚本 的 主机 前 查询 到 当前 ID 即 为 主机 的 server id, 


lepus server id 必须 和 MySQL 服 务 器 配置 里 的 服务 器 ID 一 一 对 应 ， 否 则 可 能 无 法 查询 到 该 主机 的 慢 查 询 ， 如 图 11-2 所 示 。 


MySQL 列表 


= MongoDB 


= Redis 
= HESS 
» MySQL 监控 270 | 192.160.11177 4-master 


® Oracles 271 | 192.169.111.78 -slave1 


图 11-2 ”服务 器 ID 


配置 完成 后 保存 ， 并 加 入 计划 任务 。 因 为 慢 查 询 做 了 按 分 钟 的 切割 设置 ， 因 此 建议 计划 任务 时 间 间 隔 在 5 分 钟 之 内 ， 命 令 如 下 : 


f crontab -1 
*/5 * * * * /bin/bash /usr/local/sbin/lepus slowquery.sh > /dev/null 2>&1 


配置 完成 后 ， 稍 等 片刻 ， 即 可 企 慢 查询 分 析 平 台 查 看 该 库 的 慢 查 询 日 志 ( 见 图 11-3) 。 
4) 开启 慢 查 询 自动 推送 功能 。 


慢 查 询 自动 推送 是 指定 时 将 系统 收集 到 的 慢 查 询 TOP 数 据 推送 给 相应 开发 人 员 进 行 优化 ， 无 需 在 每 台数 据 库 上 部 署 脚本 。MySQL 慢 查询 的 自动 推送 功能 将 通过 任务 完成 。 如 果 需 要 推送 ， 则 得 在 监控 机 
部 署 如 下 任务 。 
#crontab -1 


*/] * * * * curl 
http://192.168.111.82/mysqlmonitor/index.php/task/send mysql slowquery mail > /dev/null 2»81 


任务 部 署 完 成 后 ， 则 会 按照 配置 的 时 间 将 慢 查 询 推送 给 对 应 人 员 。 慢 查询 以 邮件 的 方式 推送 给 哪些 人 需要 在 MySQL 主 机 配置 中 设置 ( 见 图 11-4) ， 若 邮箱 为 空 ， 则 该 数据 库 主 机 不 会 发 送 慢 查询 推送 。 


MySQL 慢 查 询 分 析 


主页 /MySQL 监控 


四 Bw 2016-02-16 16:00  - 2016-02-23 16:00 M HEBR figura 日 倒序 "ELS cmm. 


查询 时 间 TS HN S] 
校 验 值 抽象 语句 展开 所 有 最 近 时 间 次 数 FH 最 小 总 计 最 小 最 大 


11295828619216035301 +select count(pLid) from p loan pl: 2016-02-23 15:47:00 31178 2413 2000 28327 0.00003 0.00083 
2589655896978760154 +select pLid, pl.loan_no as loanno: j 2016-02-23 15:40:12 68 2097 2.002 0.0152 0.00009 0.00039 
12894737561460943613 +select count(?) from user u left jo: 2016-02-23 15:34:42 2134 2001 0.0237 0.00004 0.00019 
15216983452305686868 +select pLid, pLloan no as loanno,: 2016-02-23 13:57:41 3.772 2.005 0.3957 0.00008 0.00103 
9919018602010958573 +select id as id, id_num as idnum, a: E 2016-02-23 12:20:51 2053 2.004 0.0071 0.00042 0.00072 


14799804637239350472 +select count(cqw.id) from credit. qu: 2016-02-23 12:03:25 8468 3285 0.0068 0.00009 0.00501 


2776260014704128821 +select count(cqw.id) from credit_qu: 2016-02-23 11:52:41 1256 2487 0.0040 0.00004 0.00016 


9316725730261614066 +select pLid, pLloan. no as loanno,: 2016-02-23 11:46:57 2097 2049 0.0005 0.00024 0.00028 
+select pLid, pLloan. no as loanno: 2016-02-23 10:59:28 2109 24109 0.0002 0.00024 0.00024 


12510289504428231164 +select pLid, pLloan no as loanno,: 1 2016-02-23 10:32:56 6347 2.087 0.0060 0.00009 0.00032 
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devs 
T683044238177213205 1 
2015-02-19 18:53:25 air Elis] 2016-02-19 18:59:25 
update i, p_loan p setilive province = p.region where p.id-iloan id andilive prownce is ? 
update i, p_loan p setilive province = p.region where p.id-iloan id and i.live_provinee is null 
Query time sum Query time min Query time max Query time pct 95 Query time stddev Query time median 
31.0275 31.0225 31.0225 310225 ü 31.0225 
Lock time sum Lock time min Lock tima max Lock time pct 95 Lock fime stddev Lock time median 
0.000156 0.000166 0.000766 0.000166 0 0.000166 
Rows sent sum Rows sent mir Rows sent max Rows sent pct 95 Rows sent siddew Rows sent median 
ü ü Ü Ü 0 0 
Rows examined sum Rows examined min Rows examined max Rows examined pct 95 Rows examined stddev — Rows examined median 
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图 11-3 ”Lepus 慢 查询 日 志 展 示 
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图 11-4 设置 慢 查 询 发 送 邮件 人 
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